基於深度神經網路的回聲消除和噪聲抑制的任務分割
阿新 • • 發佈:2022-05-18
本文是微軟對語音前端pipeline基於任務解耦方面的相關工作。區別於目前流行的傳統線性AEC+以(線性AEC輸出/傳聲器接收訊號/遠端訊號)作為輸入的深度神經網路的結構;採用了NN回聲估計+以(估計回聲和去回聲後的粗譜)作為輸入的神經網路的結構,繼承了語音增強中任務解耦的思路[1][2]。
論文題目:Task splitting for dnn-based acoustic echo and noise removal
作者:Sebastian Braun, Maria Luis Valero (微軟)
背景動機
- 之前任務解耦思路的工作只證明了每個階段會帶來效能收益,以及比基線系統性能更好,但是沒比較過會比相似結構的網路無約束優化更好。
- 之前任務解耦思路的工作要依次訓練每個階段,訓練過程很耗時
本文貢獻:
- 設計了一個基於DNN的兩階段系統,該系統由深度聲學回聲消除 (DAEC)和噪聲及殘留回聲抑制(NRES)模組組成。
- 提出了一種自適應損失以避免繁瑣的多階段訓練。
- 這種方法,AEC模組只去除回波,這不會產生明顯的訊號失真;NRES去除噪聲和殘留回聲,只引入一定的訊號失真。提出的兩級系統優於單級基線,特別是在訊號失真方面。
模型架構
模型採用CRUSE,詳見CRUSE。
DAEC模組網路輸入幅度譜壓縮後的傳聲器接收訊號和利用幅度平方相干演算法幀對齊的遠端訊號復譜,即輸入通道數為4,輸出得到估計回聲的壓縮譜,解壓縮後與傳聲器接收訊號相減得到殘差訊號。
NRES模組輸入殘差訊號和估計回聲的壓縮複數譜,即輸入通道數也為4,網路估計得到多幀濾波器係數,對殘差訊號進行多幀濾波
式中K=1,L=2
AEC的編碼器輸出和NRES的編碼器輸出用帶點卷積的跳轉連線通訊。
損失函式
第一項是CRUSE中的複數譜壓縮MSE損失,第二項是為了防止語音過度抑制,第三項是回聲估計損失,這裡用不壓縮的MAE,因為壓縮損失會導致回聲欠估計嚴重
資料與結果
第一張圖越偏左上的模型越好,其他三張越偏右上的越好。
- 單階段AEC模型CRUSE-AEC-64具有很好的去回聲效能但降噪效能明顯不如CRUSE-NS-64,因為學習的任務不同
- DAEC不降噪,也幾乎不帶來語音失真,只去回聲
- 只見過AEC資料的DAEC與只見過噪聲資料的CRUSE-NS級聯不如DAEC+NRES聯合訓練或者CRUSE-AEC
- 在相似的複雜性下,DAEC-64+NRES-64兩級系統的雙講語音失真上略優於單階段相似複雜度的DRUSE-AEC-128,其他指標二者相似。
- 降低DAEC的複雜度會帶來降噪效能的下降,但是AEC效能變化不明顯
loss的消融實驗