為耳機(jī)配備更多人工智能可能是一項(xiàng)挑戰(zhàn)。了解稀疏性、量化和內(nèi)存感知調(diào)度等壓縮技術(shù)如何幫助鋪平道路。
耳機(jī)和助聽器正悄然轉(zhuǎn)變?yōu)榭煞湃肟诖挠?jì)算機(jī)。在任何一天,它們都需要處理通話雜音、在嘈雜的咖啡館中識(shí)別喚醒詞、理解簡短指令,最近還能在擁擠的餐桌上幫助追蹤朋友的聲音。產(chǎn)品團(tuán)隊(duì)希望在不增大電池或使用更昂貴芯片的情況下實(shí)現(xiàn)所有這些功能。
訣竅不在于單一的神奇模型或更快的核心,而在于一系列壓縮技術(shù):稀疏性、量化和內(nèi)存感知調(diào)度。這些技術(shù)共同使多個(gè)小模型能夠?qū)崟r(shí)共存與協(xié)作。
無線耳機(jī)不斷發(fā)展,新增了各種功能。
產(chǎn)品經(jīng)理、高管和工程師需要基于音頻可穿戴設(shè)備的實(shí)際數(shù)據(jù),找到切實(shí)可行的方法來思考這一技術(shù)組合。這些建議將使他們能夠?yàn)樵O(shè)備帶來更多價(jià)值,同時(shí)又不超出物料清單(BOM)或功耗預(yù)算。
約束條件:必須滿足的要求
現(xiàn)代可聽設(shè)備正在融合:真無線立體聲(TWS)耳機(jī)增加了輔助聆聽功能;助聽器增加了連接性和更豐富的用戶體驗(yàn);高端耳機(jī)則向健康和健身領(lǐng)域邁進(jìn)。如今典型的 “愿望清單” 包括:
用于通話和面對(duì)面降噪(如雞尾酒會(huì)場景)的實(shí)時(shí)語音增強(qiáng)
喚醒詞 + 口語理解(SLU)+ 語音 ID,實(shí)現(xiàn)免提控制和個(gè)性化
反饋消除、自適應(yīng)均衡壓縮 / 主動(dòng)降噪(ANC)
生物追蹤 / 活動(dòng)監(jiān)測(光電容積脈搏波 / 光學(xué)溫度傳感器)
運(yùn)動(dòng)追蹤(慣性測量單元 / 加速度計(jì))
設(shè)計(jì)現(xiàn)實(shí):端到端音頻延遲為 4-10 毫秒,始終監(jiān)聽功能必須以微瓦級(jí)功耗待機(jī),片上靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM)容量緊張,閃存占用空間固定。僅憑單一技術(shù)無法滿足這些約束,需要多種互補(bǔ)技術(shù)協(xié)同作用。
壓縮是多元的:真正適用的技術(shù)組合
量化:從 32 位浮點(diǎn)(float32)轉(zhuǎn)為 8 位整數(shù)(INT8)權(quán)重可立即減少 4 倍存儲(chǔ)量,并通過更窄的數(shù)據(jù)路徑節(jié)省能耗。許多音頻模型在使用逐通道縮放時(shí),對(duì) INT8 的耐受性強(qiáng),質(zhì)量影響極小。量化感知訓(xùn)練有助于進(jìn)一步縮小量化與浮點(diǎn)性能之間的差距,只需額外幾步訓(xùn)練即可接近量化前的精度。
權(quán)重稀疏性:修剪 90% 的權(quán)重可使參數(shù)存儲(chǔ)量減少約 10 倍(這也能降低 SRAM 漏電),并且當(dāng)硬件實(shí)際跳過零權(quán)重時(shí)(而非解壓權(quán)重矩陣來執(zhí)行矩陣向量運(yùn)算),修剪層的乘加運(yùn)算(MAC)可減少約 10 倍。重要的是,稀疏性應(yīng)在編譯器和硬件中占據(jù)核心地位,否則會(huì)因索引 / 打包開銷而無法獲得運(yùn)行時(shí)優(yōu)勢。
激活稀疏性:語音具有突發(fā)性。即使沒有特殊的激活稀疏性損失函數(shù),我們在流音頻模型中也常觀察到約 50%-70% 的稀疏激活(在更安靜的環(huán)境中更高),換句話說,當(dāng)硬件能夠動(dòng)態(tài)跳過零時(shí),運(yùn)行時(shí) MAC 可減少 2-3.33 倍。在整個(gè)網(wǎng)絡(luò)中使用人工神經(jīng)網(wǎng)絡(luò)最流行的激活函數(shù)之一 —— 修正線性單元(ReLU),會(huì)產(chǎn)生零輸出,并在網(wǎng)絡(luò)的其余部分傳播。每個(gè)輸出層與零相乘或相加都會(huì)產(chǎn)生簡單結(jié)果。能夠主動(dòng)尋找并動(dòng)態(tài)跳過零激活的指令集是利用這一特性的關(guān)鍵。
倍增效益:權(quán)重和激活稀疏性基本不相關(guān),因此它們對(duì)運(yùn)行時(shí)的影響是相乘的。10 倍的權(quán)重稀疏性 MAC 減少與 3.3 倍的激活稀疏性減少相結(jié)合,可使有效操作減少約 33 倍(未考慮 INT8 效率)。這就是額外模型在存儲(chǔ)和節(jié)省吞吐量方面的空間來源。
架構(gòu)與內(nèi)存塑形:
精簡為更小的模型
使用因果時(shí)間卷積網(wǎng)絡(luò)(TCN)或小狀態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型實(shí)現(xiàn)低延遲流處理
融合操作符以減少 SRAM 的傳遞次數(shù)
利用激活重用
考慮內(nèi)存層次結(jié)構(gòu)進(jìn)行分塊
配置稀疏模式以改善查找開銷和加速 —— 但不要限制過嚴(yán),以免限制矩陣的表達(dá)能力和性能
對(duì)于多特征系統(tǒng),共享前端(短時(shí)傅里葉變換 / 差分對(duì)數(shù)梅爾濾波器組),避免特征重復(fù)計(jì)算相同的緩沖區(qū)。
簡單前饋神經(jīng)網(wǎng)絡(luò)中權(quán)重和激活稀疏性的可視化表示。節(jié)點(diǎn)代表網(wǎng)絡(luò)中的激活,節(jié)點(diǎn)之間的連接代表權(quán)重。跳過節(jié)點(diǎn)零值的操作和減少節(jié)點(diǎn)間的連接數(shù)分別代表激活稀疏性和權(quán)重稀疏性。

簡單前饋神經(jīng)網(wǎng)絡(luò)中權(quán)重和激活稀疏性的可視化表示。節(jié)點(diǎn)代表網(wǎng)絡(luò)中的激活,節(jié)點(diǎn)之間的連接代表權(quán)重。跳過節(jié)點(diǎn)零值的操作和減少節(jié)點(diǎn)間的連接數(shù)分別代表激活稀疏性和權(quán)重稀疏性。
耳機(jī)技術(shù)組合的具體示例
考慮一個(gè)實(shí)時(shí)時(shí)間卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(TCRNN)語音增強(qiáng)模型。該模型近 30 層,若沒有外部動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM)在運(yùn)行時(shí)來回交換權(quán)重,對(duì)大多數(shù)硬件平臺(tái)而言都過于龐大。在密集狀態(tài)下,它有約 600 萬個(gè)參數(shù),浮點(diǎn)精度下約 24 兆字節(jié)。使用 INT8 后,降至約 6 兆字節(jié)。結(jié)合 90% 的權(quán)重稀疏性,權(quán)重僅需約 600 千字節(jié);加上約 100 千字節(jié)的激活緩沖區(qū)(重用時(shí)總計(jì)約 700 千字節(jié))。從主觀和客觀角度看,其性能堪比更大的模型,但占用空間僅為后者的一小部分。
這一占用空間足夠小,可與其他功能共存。例如,在 1 兆字節(jié)的 SRAM 空間中,可預(yù)留約 300 千字節(jié)用于喚醒詞 + SLU 路徑(如通過適度稀疏性和 INT8 將約 500 千字節(jié)的基線壓縮至約 100 千字節(jié)),還剩約 200 千字節(jié)用于語音 ID 嵌入、聲音事件檢測器、反饋消除器或 IMU 活動(dòng)分類模型。
除了在單位芯片上提供更多應(yīng)用外,稀疏性在功耗和延遲方面也真正發(fā)揮了優(yōu)勢:去噪器以約 1.2 毫瓦運(yùn)行時(shí)延遲為 8 毫秒,以約 2.1 毫瓦運(yùn)行時(shí)延遲為 4 毫秒。對(duì)于 100 毫安時(shí)的電池,這為無線電以及其他功能和傳感器留出了充足預(yù)算,尤其適用于 “情境使用” 模式或高占空比工作負(fù)載。

耳機(jī)人工智能應(yīng)用棧的壓縮。90% 的稀疏性可使內(nèi)存占用減少 10 倍,而精度或性能幾乎不下降。
共享(和調(diào)度)至關(guān)重要:實(shí)用建議
即使是壓縮完美的模型,如果一直運(yùn)行也會(huì)浪費(fèi)功耗。耳機(jī)和助聽器的一個(gè)實(shí)用模式是門控調(diào)度?紤]以下步驟:
始終保持超低功耗監(jiān)聽器(喚醒詞、瞬態(tài) / 語音活動(dòng))運(yùn)行。這是最小、最省電的模型(包括前端約 200 微瓦)
觸發(fā)后,僅在需要時(shí)啟動(dòng)較重的任務(wù)(SLU、上下文更新),然后將其轉(zhuǎn)入 SRAM 保留模式
共享功能并統(tǒng)一前端。去噪器的聲學(xué)特征也可用于環(huán)境分類或語音 ID。從每個(gè)應(yīng)用中提取所需的最高分辨率快速傅里葉變換(FFT)(可能是語音增強(qiáng)或聲源分離),并為低復(fù)雜度任務(wù)融合 FFT bins,避免重復(fù)計(jì)算前端。這有助于避免緩沖區(qū)過多導(dǎo)致的問題
保持任何標(biāo)記器或嵌入量;緩存用戶語音圖譜,使用低秩適配器進(jìn)行個(gè)性化,而非整個(gè)模型分支
對(duì)于生物和活動(dòng)追蹤,依靠壓縮性好的緊湊時(shí)間模型(TCNs/RNNs);積極下采樣和壓縮時(shí)間窗口。在采樣時(shí)采用占空比(心率和體溫?zé)o需 24/7 追蹤);當(dāng)出現(xiàn)較大變化或用戶打開配對(duì)的健康 / 健身應(yīng)用以獲取更高精度時(shí),提高采樣率。活動(dòng)分類器在 INT8 和適度稀疏性下通?稍 100-200 千字節(jié)內(nèi)運(yùn)行良好
對(duì)流處理使用環(huán)形緩沖區(qū),并在任務(wù)間重用激活 / 狀態(tài)緩沖區(qū),避免 SRAM 碎片化
激活稀疏性在此也有幫助。在有聲段,激活密度隨語音起伏;加速器在工作量較小時(shí)自然減少工作。
芯片應(yīng)具備的特性
如果您在評(píng)估多特征音頻設(shè)備的計(jì)算能力,請(qǐng)檢查以下方面:
核心權(quán)重和激活稀疏性。僅存儲(chǔ)稀疏權(quán)重是不夠的,您需要硬件能夠跳過零權(quán)重和零激活,而無需額外解包或開銷
混合精度。大多數(shù)層使用高效 INT8(越來越多使用 INT4),激活使用 INT8/16。虛擬化更高位寬精度(將 INT16 和 INT8 操作組合成 24 位)作為前端等敏感層的應(yīng)急措施是一個(gè)很好的補(bǔ)充,可減輕伴隨數(shù)字信號(hào)處理器(DSP)的負(fù)載
與您的并發(fā)計(jì)劃匹配的片上內(nèi)存。足夠的 SRAM 用于容納去噪器、監(jiān)聽器和小型 SLU,以及乒乓緩沖區(qū),而無需頻繁訪問外部內(nèi)存
流式友好和融合操作符。因果卷積、小狀態(tài) RNN 單元、對(duì)新興網(wǎng)絡(luò)(如狀態(tài)空間模型(SSMs)和滑動(dòng)窗口注意力)的未來 - proof 自定義操作符支持、突發(fā)友好的直接內(nèi)存訪問(DMA)和多種電源循環(huán)模式
稀疏感知工具鏈?紤]修剪、校準(zhǔn)、打包和報(bào)告有效 MAC(后稀疏性)的分析器,而不僅僅是理論每秒千兆次操作(GOPs)
如今,您可以購買此類專用稀疏加速器。例如,F(xiàn)emtoAI 的 SPU-001 處理器擁有 1 兆字節(jié) SRAM,在 90% 稀疏性下等效內(nèi)存為 10 兆字節(jié)。采用 22 納米理想節(jié)點(diǎn),面積 3.4 平方毫米。它支持上述技術(shù),并將稀疏性作為核心特性。
該公司已為客戶創(chuàng)建了大部分人工智能應(yīng)用棧。當(dāng)然,您也可以使用通用神經(jīng)網(wǎng)絡(luò)處理器(NPU)知識(shí)產(chǎn)權(quán),花費(fèi)大量令人疲憊、令人頭疼的工程時(shí)間來構(gòu)建類似的稀疏耳機(jī)應(yīng)用棧、工具鏈、編譯器和指令集。無論哪種方式,只有當(dāng)稀疏性從訓(xùn)練到打包再到運(yùn)行時(shí)端到端實(shí)現(xiàn)時(shí),才能獲得收益。

FemtoAI 的 SPU-001 芯片
芯片規(guī)格確定前的快速規(guī)劃清單
列出同時(shí)運(yùn)行的功能及其最壞情況重疊(如去噪 + 喚醒 + SLU + 無線電)
為每條路徑設(shè)置延遲預(yù)算(如去噪≤10 毫秒;SLU≤32 毫秒)
選擇量化和修剪目標(biāo)(如各處使用 INT8 權(quán)重;大多數(shù)激活使用 INT16,需要時(shí)使用虛擬 INT24;在穩(wěn)定的地方使用 80-90% 稀疏性)
計(jì)劃在不同稀疏度級(jí)別保存模型檢查點(diǎn),以形成一條曲線,從中選擇性能與壓縮的平衡點(diǎn)
在實(shí)際音頻上驗(yàn)證激活稀疏性;假設(shè)無需特殊損失即可達(dá)到約 50%
壓縮前后使用客觀指標(biāo)(語音的 SNR/STOI/PESQ/HASPI/HASQI/DNSMOS;喚醒詞 / ID 的 F1 分?jǐn)?shù)和誤報(bào)率 / 漏報(bào)率)進(jìn)行測量
沿著模型檢查點(diǎn)曲線調(diào)整檢測閾值,以滿足性能要求
在板級(jí)早期進(jìn)行老化測試,包括傳感器、無線電、主機(jī)處理器、揚(yáng)聲器,以及在給定用戶場景中同時(shí)運(yùn)行的最壞情況數(shù)量的模型;記錄有效 MAC 并估算熱性能
結(jié)語:多功能未來
市場方向明確:可聽設(shè)備將充當(dāng)助手、通信工具、助聽器和健康伴侶。要在小電池和緊張的 BOM 上實(shí)現(xiàn)如此廣泛的功能,需將壓縮視為系統(tǒng)設(shè)計(jì)原則,而非事后考慮。量化帶來首 4 倍收益,權(quán)重稀疏性再增加約 10 倍,激活稀疏性在運(yùn)行時(shí)再乘約 2-3.3 倍。這些收益與合理的調(diào)度和共享前端 / 功能相結(jié)合,轉(zhuǎn)化為每微瓦、每毫米和每美元更多的應(yīng)用,或在給定預(yù)稀疏預(yù)算下提升性能。
無論您采用 SPU-001 等以稀疏性為先的加速器和工具包,還是自行組裝技術(shù)棧,原則都是相同的:壓縮不在于單個(gè)模型孤立地顯得巧妙,而在于多個(gè)模型在同一預(yù)算內(nèi)協(xié)作,讓設(shè)備真正為用戶帶來更好體驗(yàn)。 |