論文翻譯:2020_Acoustic Echo Cancellation by Combining Adaptive Digital Filter and Recurrent Neural Network
論文地址:https://arxiv.53yu.com/abs/2005.09237
自適應數字濾波與迴圈神經網路相結合的回聲消除技術
摘要
回聲消除(AEC)在語音互動中起關鍵作用。由於明確的數學原理和適應條件的智慧特性,具有不同實現型別的自適應濾波器始終用於AEC,從而提供了可觀的效能。但是,結果中會存在某種殘留回波,包括估計和實際之間不匹配引起的線性殘留以及主要由音訊裝置上的非線性分量引起的非線性殘留。可以通過精細的結構和方法減少線性殘留,但非線性殘留難以抑制。儘管已經提出了一些非線性處理方法,但是它們複雜且抑制效率低,並且會給語音音訊帶來損害。本文提出了一種將自適應濾波器與神經網路相結合的融合方案。通過自適應濾波可以大幅度減少回聲,從而幾乎沒有殘留回聲。儘管它比語音音訊小得多,但它也能被人耳察覺,從而影響通訊。通過精心設計和訓練神經網路,以抑制此類殘留回波。並與主流方法進行實驗比較,驗證了所提出的組合方案的有效性和優越性。
關鍵字:聲學回聲消除,AEC,殘差回波,自適應濾波器,神經網路,RNN, GRU
1 引言
如果聲音被揚聲器本身[1]聽到,就會產生回聲。這種現象在通訊、娛樂、人機互動以及其他領域都非常普遍。它可能在某些場景中有用,比如娛樂活動。但是,在大多數情況下,特別是在語音互動和通訊中,它是干擾,應該從重要的語音音訊[2]中消除。
由於回波源是一個參考訊號,因此通常採用自適應濾波器進行聲學回聲消除(AEC)。目前已有許多自適應演算法,如最小均方(LMS)[3],歸一化LMS(NLMS)[4],塊LMS(BLMS)[5]等。每一種都有自己的優點和特殊的應用。為了獲得可觀的效能,需要數百甚至數千個過濾器長度。由於採用快速傅立葉變換(FFT)有效地實現BLMS演算法大大降低了計算量,因此基於LMS演算法的頻域塊自適應濾波器(FDBAF)被認為是最適合的[6]演算法。此外,為了適應FFT中較大的分組延遲和量化誤差,提出了一種更加靈活的頻域自適應濾波器結構,稱為多延遲分組頻域(MDF)自適應濾波器[7]。
此外,為獲得更具魯棒性的回聲消除,同時還提出了根據雙講和回波路徑變化等條件調整學習速率的方法。簡單地說,在AEC中使用自適應濾波器的演算法有很多,具有較好的效能。
不幸的是,自適應濾波後會有一些殘留回波。雖然在大多數情況下,它的振幅比語音音訊小得多,但它也可以被人的耳朵感知到,會使交流變得煩惱。這些殘差包括由估計與現實不匹配引起的線性殘差和主要由音訊裝置中的非線性分量引起的非線性殘差。線性殘差可以通過精細的結構和方法進行還原,如[8][9-12],而非線性殘差則難以抑制。雖然,一些非線性處理(NLP)方法已經提出,但演算法處理是複雜的,並且可能無法有效地進行抑制[13,14]。而且,這些NLP方法會對語音音訊[15]造成損害。此外,一些其他的方法,如非線性濾波[16]和建模估計[17]也用於非線性回聲消除。
通過對殘差回波頻譜與語音音訊頻譜的比較,可以認為殘差是一種噪聲。此外,遠端參考訊號也可以為殘差抑制提供一些關係。在此基礎上,提出了一種將自適應濾波器與神經網路相結合的組合方案。受回聲干擾的語音音訊首先由具有自適應學習速率的MDF濾波器處理,以消除主回聲訊號。此後,精心設計並訓練了具有明顯結構的神經網路,以抑制殘餘回聲。在回聲回波損耗增強(ERLE),對數譜距離(LSD),響應時間(RT),模型大小等方面,將該方法與其他主流方法進行了比較。
2 演算法結構
2.1 組合方案
自適應濾波器與神經網路相結合的整合方案如圖1所示。自適應濾波器用於消除多徑或房間脈衝響應(RIR)[18]引入的線性回波。實踐證明,該演算法具有相當好的效能和較低的複雜度。通過及時調整有限脈衝濾波器(FIR)的加權係數來估計RIR,從而得到回波訊號的估計副本。但由於裝置上裝有非線性元件,例如線性度較差的揚聲器,會引入非線性回聲。它不能被FIR結構的自適應濾波所消除,從而產生殘差回波。如圖2所示,與語音音訊相比,自適應濾波後的殘差回波幅度減小到小尺度。它能夠被認為是一種特殊型別的噪音。同時,該噪聲可能與遠端參考訊號有一定的關係。因此,基於這些觀察結果,我們將設計一個神經網路,並對其進行專門的訓練,以抑制此類殘留回聲,如圖1所示。
圖1 組合方案結構
圖2 自適應濾波後的殘餘回聲
2.2 自適應濾波器
由於多延遲塊頻域自適應濾波器具有儲存容量小、FFT大小較小、可根據使用的硬體選擇不同的配置等諸多優點,因此被用於線性回聲消除的組合方案中。此外,正如Speex的開源軟體[19,20]所使用的那樣,自適應濾波器中的學習率是根據雙講和回波路徑變化等條件控制變化的。在這種情況下,線性回波可以自適應地大大消除。
長度為N的複數NLMS濾波器定義為:
\[e(n)=d(n)-\hat{y}(n)=d(n)-\sum_{k=0}^{N-1} w_{k}(n) x(n-k) (1) \]適應步驟為:
\[\hat{w}_{k}(n+1)=\hat{w}_{k}(n)+\mu \cdot \frac{e(n)}{\sum_{i=0}^{N-1}\left|x(n-i)^{2}\right|} \cdot x^{*}(n-k) (2) \]其中\(x(n)\)是遠端訊號,\(d(n)\)是接收到的麥克風訊號,\(\hat{y}(n)\)是自適應濾波器估計的回聲,\(e(n)\)是相應的估計誤差,\(w_{k}(n)\)是在時間n處的濾波器權重,\(\hat{w}_{k}(n)\)是估計的權重,\(\mu\)是學習率。
為了在雙向通話的情況下獲得快速響應,以防止雙向通話開始時濾波器發生分歧,將學習率更新為[8]
\[\hat{\mu}_{o p t}(k, l)=\min \left(\hat{\eta}(l) \frac{|\hat{Y}(k, l)|^{2}}{|E(k, l)|^{2}}, \mu_{\max }\right) (3) \]其中\(\hat{Y}(k, l)\)和\(E(k, l)\)是\(\hat{y}(n)\)和\(e(n)\)的頻域對應部分,\(k\)是頻率索引,\(l\)是幀索引,\(\hat{\eta}(l)\)是代表濾波器失調的估計洩漏係數。它等於估計的回波功率\(P_{Y}(k, l)\)與輸出功率\(P_{E}(k, l)\)之間的線性迴歸係數:
\[\hat{\eta}(l)=\frac{\sum_{k} R_{E Y}(k, l)}{\sum_{k} R_{Y Y}(k, l)} (4) \]其中,將\(R_{E Y}(k, l)\)和\(R_{Y Y}(k, l)\)的相關性遞迴平均為:
\[\begin{aligned} &R_{E Y}(k, l)=(1-\beta(l)) R_{E Y}(k, l)+\beta(l) P_{Y}(k) P_{E}(k) \\ &R_{Y Y}(k, l)=(1-\beta(l)) R_{Y Y}(k, l)+\beta(l)\left(P_{Y}(k)\right)^{2} \\ &\beta(l)=\beta_{0} \min \left(\frac{\hat{\sigma}_{Y}^{2}(l)}{\hat{\sigma}_{e}^{2}(l)}, 1\right) \end{aligned} (5) \]其中\(\beta_{0}\)是洩漏估計的基本學習速率,\(\hat{\sigma}_{\hat{Y}}^{2}(l)\)和\(\hat{\sigma}_{e}^{2}(l)\)是估計的回波和輸出訊號的總功率。當不存在回聲時,可變平均引數\(\beta(l)\)阻止對估計值進行調整。
然而,由於器件中存在非線性分量,自適應濾波器的輸出端會產生非線性殘差回波。此外,如果估計的RIR與實際的RIR不匹配,還會引入一些線性殘差回波。如圖2所示,這些都會導致相當大的殘餘回波。隨著器件非線性的增加和RIR估計誤差的增加,這種殘餘回波將變得更加嚴重。
2.3 神經網路
2.3.1 網路結構
受[21]的啟發,精心設計了基於RNN的殘差回聲抑制網路結構,如圖3所示。在這裡,RNN的每個模組都由門控迴圈單元(GRU)實現,用於資料儲存和網路計算。這種結構主要是指傳統回聲消除的功能架構,包括雙講檢測、回波估計和回聲消除三個功能模組。雙講檢測實時檢測遠端和近端訊號,只有檢測到遠端訊號時才會進行回聲抑制。此時,對自適應濾波後的訊號進行殘差回波估計。回聲消除,估計子帶的增益,迅速改變每個頻帶的電平,以衰減回波,但允許訊號通過。利用子帶增益進行計算的原因是它使模型非常簡單,只需要很少的頻寬計算。此外,也沒有所謂的音樂噪音偽影。
圖3 殘差回聲抑制網路結構
1 特徵提取
為了減少神經元的數量從而減少模型的大小,沒有直接使用樣本或頻。相反,採用【帶樹皮尺度的頻帶(the frequency band with bark scale is employed),,???】,與人類的感知相匹配。在這種情況下,總共使用了22個頻率子帶,即樹皮頻率倒譜系數(BFCC)。此外,前六個BFCC特徵的一階和二階差分,前六個音高的離散餘弦變換(DCT)提取相關係數和動態特徵,即基音週期和頻譜非平穩性指標[21]。這些結果總共得到42個特徵,作為殘差回聲抑制神經網路的輸入資料。
2 雙講檢測
自適應濾波後,只保留語音訊號和殘餘回波。由於自適應濾波後的殘差回波幅值較小,可以很容易地檢測出語音的聲音活動。同時,參考訊號的遠端語音活動由於其純度高,也易於檢測。在這種情況下,每個通道可以獨立實現兩個語音活動檢測(VADs),降低了DTD的難度。
3 殘餘回聲消除
作為迴圈神經網路(RNN)的一種實現,門控遞迴單元(GRU)模組利用參考訊號的輸入特徵、自適應濾波的輸出訊號和DTD結果來估計殘差回波。由於RNN模型的記憶功能,相對於其他模型,RNN模型可以更好地估計殘差回波。
4 殘餘回聲抑制
通過計運算元帶增益,採用由全連線層連線的GRU模組進行回波抑制。如果近端即自適應濾波輸出的VAD為零,則接近零;如果遠端參考訊號的VAD為零,則接近1。否則,估計一個小數表示語音與殘餘回聲疊加的比率。
由於僅通過網路計算頻帶增益,不能直接應用於每個頻率。因此,為了獲得頻率增益,需要在頻帶之間進行線性插值,如圖4所示,並可以公式化表示為:
圖4 線性插值示意圖
其中\(g_{k}(m)\)是第k個頻帶的第m個頻率的增益,\(g_{k}\)和\(g_{k+1}\)是第\(k\)個頻帶和第\(k+1\)個頻帶的頻帶增益,\(M\)表示第\(k\)個頻帶的頻帶長度。
2.3.2 雙講檢測訓練
訓練資料可以手工註釋,也可以模擬。手動標註資料是通過監聽遠端或近端是否有音訊以及在哪裡有音訊來獲取的。其中記錄了源播放的音訊和裝置本身播放的音訊。但是,這種方法很耗時。因此,我們使用模擬資料進行訓練。如圖5所示,總結如下:
圖5 雙講檢測訓練流程圖
1 遠端資料準備。遠端資料是用於回聲消除的參考訊號,是裝置自身揚聲器播放之前在參考通道中傳輸的音訊檔案。該參考訊號被加框加窗,然後用於能量計算。將此能量值與兩個閾值進行比較,如果大於較高的閾值,則用“1”標記,如果小於較低的閾值,則用“0”標記,否則,用“0.5”標記。該標籤是逐幀計算的,表示音訊存在的概率,並結合特徵向量進行計算。
2 近端資料準備。這裡的近端資料是自適應濾波後的訊號,消除了巨大的回波,特別是線性回波。而回波訊號則通過參考訊號與RIRs的卷積得到。該回波訊號與乾淨的語音音訊檔案混合,以模擬麥克風接收訊號。然後對這個麥克風訊號進行自適應濾波處理。然後,用殘差回波混合得到乾淨的語音,代表訓練的近端資料。通過直接計算能量並與閾值進行比較,可以很容易地得到表示是否有乾淨話語的標籤。值得注意的是,由於殘差回波的幅值相對乾淨語音的幅值較小,也可以通過自適應濾波後直接計算訊號能量得到標籤。同樣,計算每一幀對應的特徵向量。
3 訓練過程。由於通過比較幀能量和閾值可以直接獲得兩個通道的標籤,因此可以使用VADs單獨實現語音檢測。通過特徵向量及其標籤,可以很容易地訓練出每個通道的VAD模組。
2.3.3 殘餘回聲抑制訓練
殘差回波抑制網路的目的是計算頻帶增益,其訓練過程如圖6所示。
圖6 頻帶增益訓練流程圖
除帶增益標籤外,遠端和近端資料以上述相同的方式準備。可以通過計算以\(E_{s, k}\)表示的乾淨語音的頻帶能量和以\(E_{m, k}\)表示的自適應濾波後的殘留訊號的頻帶能量,然後將它們逐段劃分以獲得標籤,即\(g_{k}=\sqrt{\frac{E_{B, k}}{E_{m, k}}}\),來獲得這些值。同時,這兩個通道的特徵向量與前述相同。
3 效能評估
模型的訓練。
模型結構可以顯示為3。總共構造了10個小時的語音和5個小時的回聲資料,通過使用增益和濾波器的各種組合,可以得到20個小時的訓練時間。在訓練過程中,應學習三個目標函式,即語音訊號的VAD,參考訊號的VAD和抑制的頻帶增益。如圖7所示,訓練損失和驗證損失都逐漸下降到接近零,這表明已經訓練了可觀的模型。
圖7 訓練過程中的損失
實驗驗證。
(a)頻段增益。由一串喚醒片語成的音訊語音受其自身播放的文字到語音(TTS)音訊的干擾。關於VAD和頻帶增益的計算結果如圖8所示。可以發現,如果在出現喚醒詞的動量處檢測到參考訊號,則頻帶增益將接近零。由於殘留回波的能量聚集在低頻段,因此低頻段用於抑制的頻段增益將低於高頻段。
圖8 神經網路計算的頻帶增益
(b)波形觀察。為了評估效能,從流行的開原始碼中提取方法進行比較。從圖9可以看出,與Speex和WebRTC相比,所提出的RNN演算法之後的殘留回聲可以被大大抑制。這些在僅殘留回聲存在的語音間隙處更為明顯。還可以發現,在WbeRTC AEC之後,高頻帶的頻譜被切斷,這可以通過演算法中的非線性處理(NLP)引入。
圖9 波形比較
(c)效能比較。表1評估並列出了代表回聲抑制效能的ERLE值和代表由AEC引起的語音訊譜損失的LSD並列在表1中。由於AEC模組主要在裝置上實現,因此在裝置上獲得的響應時間(RT)代表處理速度的平臺相同,代表演算法複雜度的模型大小也應考慮在內。可以看出,所提出的方案可以獲得較高的ERLE,同時具有相當大的頻譜損耗和處理時間。儘管所提出方案的模組尺寸較大,但是由於參考訊號是純淨語音,因此可以定製該通道的VAD模型結構。同時,模型結構中用於回波估計的VAD的中間結果可能會被裁剪。這些都可以減小模型的尺寸。
表1 實驗對比
4 總結
提出了一種自適應濾波器與神經網路相結合的聲學回聲消除方案。自適應濾波後的回波可以大範圍地消除,特別是線性回波,只留下一點殘餘回波。殘差訊號的頻譜與語音訊號的頻譜有很大的不同,可以看作是一種特殊型別的噪聲。因此,利用神經網路將殘差抑制到相當高的水平。實驗表明,該方案在具有相當的頻譜損傷和響應時間的情況下,可以獲得更高的回波抑制效能。
5 參考文獻
[1] E. Ha¨nsler, G. Schmidt, “Topics in acoustic echo and noise control: selected methods for the cancellation of acoustical echoes, the reduction of background noise, and speech processing,” Springer Berlin Heidelberg, 2006.
[2] J. Benesty, T. Ga¨nsler, “Advances in network and acoustic echo cancellation,” Advances in network and acoustic echo cancellation, Springer, 2001.
[3] E. Ferrara, “Fast implementations of LMS adaptive filters,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 28, no. 4, pp. 474–475 1980.
[4] R. Tyagi, R. Singh and R. Tiwari, “The performance study of NLMS algorithm for acoustic echo cancellation,” in International Conference on Information, Communication, Instrumentation and Control, ICICIC, 2017, pp. 1–5, Indore.
[5] G. A. Clark, S. K. Mitra, and S. R. Parker, “Block implementation of adaptive digital filters,” IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP–29, pp. 744–752, June 1981.
[6] Pez Borrallo JosM., M. G. Otero, “On the implementation of a partitioned block frequency domain adaptive filter (PBFDAF) for long acoustic echo cancellation,” Signal Processing, vol. 27, no. 3,pp. 301–315, 1992.
[7] J. S. Soo, K. K. Pang, “Multidelay block frequency domain adaptive filter,” IEEE Transactions on Acoustics,Speech and Signal Processing, vol. 38, no. 2, pp. 373–376, 1990.
[8] J. Valin, “On adjusting the learning rate in frequency domain echo cancellation with double-talk,“ IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, no. 3, pp. 1030–1034,2007.
[9] Z. Yuan and X. Songtao, “Application of new LMS adaptive filtering algorithm with variable step size in adaptive echo cancellation,” in IEEE International Conference on Communication Technology, ICCT, 2017, pp. 1715–1719.
[10] J. Benesty, H. Rey, L. R. Vega and S. Tressens, “A nonparametric VSS NLMS algorithm,” IEEE Signal Processing Letters, vol. 13, no. 10, pp. 581–584, 2006.
[11] C. Paleologu, S. Ciochina and J. Benesty, “Double-talk robust VSS-NLMS algorithm for under-modeling acoustic echo cancellation,” in IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP, 2008, pp. 245–248.
[12] Mohammad Asif Iqbal and S. L. Grant, “Novel variable step size nlms algorithms for echo cancellation,” in IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP, 2008, pp. 241–244.
[13] O. Tanrikulu and K. Dogancay, “A new non-linear processor (NLP) for background continuity in echo control,” in IEEE International Conference on Acoustics, Speech, and Signal Processing,ICASSP, 2003, pp. V–588.
[14] M. Doroslovacki, “Optimal non-linear processor control for residual-echo suppression,” in IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP, 2003, pp. V–608.
[15] B. Panda, A. Kar and M. Chandra, “Non-linear adaptive echo supression algorithms: A technical survey,” in International Conference on Communication and Signal Processing,ICCSP, 2014,pp. 076–080.
[16] M. Z. Ikram, “Non-linear acoustic echo cancellation using cascaded Kalman filtering,” in IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP, 2014,pp. 1320–1324.
[17] M. I. Mossi, C. Yemdji, N. Evans, and etc., “Robust and lowcost cascaded non-linear acoustic echo cancellation, in IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP, 2011, pp. 89–92.
[18] J. Mourjopoulos, “On the variation and invertibility of room impulse response functions,” Journal of Sound & Vibration, vol. 102, no. 2, pp. 217–228, 1985.
[19] J. M. Valin, “Speex: A free codec for free speech,” Speex A Free Codec for Free Speech, 2016.
[20] P. Srivastava, K. Babu and T. Osv, “Performance evaluation of Speex audio codec for wireless communication networks,” in International Conference on Wireless and Optical Communications Networks, WOCN, 2011, pp. 1–5.
[21] Valin, Jean-Marc, “A hybrid DSP/deep learning approach to realtime full-band speech enhancement,” in IEEE International Workshop on Multimedia Signal Processing, MMSP, 2018, pp. 1–5