1. 程式人生 > 其它 >論文翻譯:2018_CRN_A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement

論文翻譯:2018_CRN_A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement

論文地址:用於實時語音增強的卷積遞迴神經網路

程式碼地址:https://github.com/JupiterEthan/CRN-causal

作者主頁:https://jupiterethan.github.io/

引用格式:Tan K, Wang D L. A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement[C]//Interspeech. 2018: 3229-3233.

摘要

  許多現實世界中的語音增強應用,如助聽器和人工耳蝸,都需要實時處理,沒有延遲或低延遲。在本文中,我們提出了一種新型的卷積遞迴網路(convolutionalrecurrent network,CRN)來解決實時單聲道語音增強問題。我們將卷積編碼解碼器(convolutional encoder decoder,CED)和長短時記憶(LSTM)納入CRN架構,搭建一個自然適合實時處理的因果系統。此外,所提出的模型與噪聲和說話人無關,即噪聲型別和說話人在訓練和測試中可以不同。我們的實驗表明,與現有的基於LSTM的模型相比,CRN所帶來的客觀可懂性和感知質量始終更好。此外,CRN的可訓練引數要少得多。

關鍵詞:噪聲和說話人無關的語音增強,實時應用,卷積編碼器-解碼器,長短期記憶,卷積遞迴網路

1 引言

  語音分離旨在將目標語音從背景干擾中分離出來,背景干擾可能包括非語音噪聲、干擾語音和房間混響[1]。語音增強是指語音和非語音噪聲的分離。它在現實世界中有各種應用,如強大的自動語音識別和移動語音通訊。對於許多這樣的應用,需要實時處理。換句話說,語音增強是以低計算複雜性進行的,提供近乎即時的輸出。

  在這項研究中,我們專注於可以在實時應用中進行的單聲道(單麥克風)語音增強。 例如,在數字助聽器中,已經發現低至3毫秒的延遲對聽眾來說是明顯的,而超過10毫秒的延遲是令人討厭的[2]。對於這樣的應用,通常需要因果語音增強系統,其中不允許有未來資訊

(因果系統只能使用過去的資訊,不能使用未來的資訊)

  受計算聽覺場景分析(CASA)中時頻(T-F)掩碼概念的啟發[3],近年來,語音分離被表述為監督學習,採用深度神經網路(DNN)來學習 噪聲聲學特徵到T-F掩碼的對映[4]。理想的二進位制掩碼,將T-F單元分類為以語音為主或以噪聲為主,是監督式語音分離中使用的第一個訓練目標。最近的訓練目標包括理想比率掩碼[5]和與目標語音的幅度或功率譜對應的基於對映的目標[6][7]。在本研究中,我們使用目標語音的幅值譜作為訓練目標。

  對於監督下的語音增強,噪聲泛化和說話人泛化都是至關重要的。處理噪聲泛化的一個簡單而有效的方法是用不同的噪聲型別進行訓練[8]。類似地,為了解決說話人的泛化問題,在訓練集中包括大量的說話人。然而,人們發現,前饋DNN在有許多訓練說話人的情況下,無法跟蹤目標說話人[9] [10] [11]。通常情況下,DNN從幀周圍的一個小的上下文視窗獨立地預測每個時間幀的標籤。一種解釋是,這種DNN不能利用長期的語境,而這對於跟蹤目標說話人是至關重要的。最近的研究[9][10]表明,為了利用長期語音,將語音分離表述為序列到序列的對映會更好。

  在這樣的表述下,遞迴神經網路(RNN)和卷積神經網路(CNN)已經被用於噪聲和說話人無關的語音增強,其中噪聲型別和說話人在訓練和測試中可能是不同的。Chen等人[10]提出了一個具有四個隱藏LSTM層的RNN,以處理與噪聲無關的模型的說話人泛化問題。他們的實驗結果表明,LSTM模型對未經訓練的說話人有很好的泛化作用,並且在短時客觀可懂度(STOI)方面大大超過了基於DNN的模型[12]。最近的一項研究[13]開發了一個基於擴張卷積的門控殘差網路(GRN)。與[10]中的LSTM模型相比,GRN表現出更高的引數效率和更好的泛化能力,適用於不同信噪比水平下的未經訓練的說話者。另一方面,GRN需要大量的未來資訊用於掩碼估計或每個時間段的頻譜對映。 因此,它不能用於實時語音增強。

  在最近關於CRN的工作[14][15]的啟發下,我們開發了一個新穎的CRN架構,用於實時的噪聲和說話人無關的語音增強。CRN包含了一個卷積編碼器-解碼器和長短期記憶。我們發現,與[10]中的LSTM模型相比,我們提出的的CRN得到了更好的客觀語音可懂度和質量。

  本文的其餘部分組織如下。我們在第2節中對我們提出的模型進行了詳細描述。實驗設定和結果在第3節中介紹。我們在第4節中總結了本文。

2 系統描述

2.1帶有因果卷積的編碼器-解碼器

  Badrinarayanan等人首先提出了一個用於畫素化影象標籤的卷積編碼器-解碼器網路[16]。它包括一個卷積編碼器和一個相應的解碼器,該解碼器被送入一個softmax分類層。編碼器是卷積層和池化層的堆疊,用於從原始輸入影象中提取高階特徵。解碼器與編碼器的結構基本相同,順序相反,在編碼器的輸出端將低解析度的特徵圖對映為完整輸入影象尺寸的特徵圖。對稱的編碼器-解碼器結構確保輸出與輸入具有相同的形狀。有了這樣一個吸引人的屬性,編碼器-解碼器架構自然適合任何畫素級的密集預測任務,其目的是為輸入影象的每個畫素預測一個標籤。

圖1:因果迴圈的一個例子。卷積輸出不依賴於未來的輸入

  對於語音增強,一種方法是採用CED從噪聲語音的幅度譜圖對映到乾淨語音的幅度譜圖,其中幅度譜圖被簡單地視為影象。據我們所知,Park等人[17]首次將CED用於語音增強。他們提出了一個冗餘的CED網路(R-CED),它由卷積、批量歸一化(BN)[18]和ReLU啟用[19]層的重複組成。R-CED架構還加入了跳過連線以促進優化,它將編碼器中的每一層連線到解碼器中的相應層。

  在我們提出的網路中,編碼器包括五個卷積層,而解碼器有五個反捲積層。我們將指數線性單元(ELU)[20]應用於除輸出層之外的所有卷積層和去卷積層。與ReLUs相比,ELU已被證明能帶來更快的收斂和更好的泛化。在輸出層,我們利用softplus啟用[19],它是ReLU函式的平滑近似,可以約束網路輸出始終為正。此外,我們在每次卷積(或解卷積)後和啟用前採用批量歸一化。核的數量保持對稱:核的數量在編碼器中逐漸增加,而在解碼器中逐漸減少。為了利用沿頻率方向更大的上下文,我們對所有卷積(或反捲積)層沿頻率維度應用2的步幅。換句話說,我們在編碼器中逐層將特徵圖的頻率維度大小減半,在解碼器中逐層將其加倍,而我們不改變特徵圖的時間維度大小。為了改善整個網路的資訊和梯度流動,我們利用跳過連線,將每個編碼器層的輸出與每個解碼器層的輸入連線起來

  為了得到一個用於實時語音增強的因果系統,我們在編碼器-解碼器結構上施加了因果卷積。圖1描述了一個因果卷積的例子。請注意,輸入可以被視為一個特徵向量的序列,而圖1中只說明瞭時間維度。在因果卷積中,輸出不依賴於未來的輸入。使用因果卷積而不是非因果卷積,編碼器-解碼器架構將導致一個因果系統。注意,我們可以很容易地將因果反捲積應用到解碼器,因為反捲積本質上是一個卷積操作。

2.2利用LSTM進行時間建模

  為了跟蹤目標說話人,利用長期背景可能很重要,而上述卷積編碼器-解碼器無法利用這些背景。LSTM[21]是RNN的一種特殊型別,它包含一個記憶單元,在聲學建模和視訊分類等各種應用中已經成功地進行了時間建模。為了說明語音的時間動態,我們在編碼器和解碼器之間插入兩個堆疊的LSTM層。在這項研究中,我們使用由以下公式定義的LSTM。

$$公式1:i_{t} =\sigma(W_{i i} x_{t}+b_{i i}+W_{h i} h_{t-1}+b_{h i})$$

$$公式2:f_{t} =\sigma(W_{i f} x_{t}+b_{i f}+W_{h f} h_{t-1}+b_{h f})$$

$$公式3:g_{t} =\tanh (W_{i g} x_{t}+b_{i g}+W_{h g} h_{t-1}+b_{h g})$$

$$公式4:o_{t} =\sigma(W_{i o} x_{t}+b_{i o}+W_{h o} h_{t-1}+b_{h o})$$

$$公式5:c_{t} =f_{t} \odot c_{t-1}+i_{t} \odot g_{t}$$

$$公式6:h_{t} =o_{t} \odot \tanh (c_{t})$$

其中$x_t$、$g_t$、$c_t$和$h_t$分別代表時間t的輸入、區塊輸入、記憶單元和隱藏啟用。W’s和b’s分別表示權重和偏置。$\sigma$代表sigmoid非線性,$\bigodot$代表元素相乘。

  為了適應LSTM所要求的輸入形狀,我們將編碼器輸出的頻率維度和深度維度扁平化,在將其送入LSTM層之前產生一個特徵向量序列。隨後,LSTM層的輸出序列被重新塑造,以適應解碼器。值得注意的是,LSTM層的加入並沒有改變系統的因果關係。

2.3網路結構

  在這項研究中,我們使用161維的短時傅立葉變換(STFT)噪聲語音的幅度頻譜作為輸入特徵,並將純淨語音作為訓練目標。我們提出的CRN如圖2所示,其中網路輸入被編碼為高維深度特徵,然後深度特徵向量的序列被兩個LSTM層建模。隨後,LSTM層的輸出序列被解碼器轉換回原始輸入形狀。 提出的CRN得益於CNN的特徵提取能力和RNN的時間建模能力,通過將這兩種拓撲結構結合在一起。

圖2 我們提議的CRN的網路架構

  表1提供了我們建議的網路結構的更詳細描述。每層的輸入大小和輸出大小是以(feature Maps,time Steps,frequency Channels)的格式指定的。層的超引數以(kernel Size, strides, out Channels)格式給出。對於所有的卷積和解卷積,我們在時間方向上應用零填充,但在頻率方向上不應用。為了進行因果卷積,我們使用2×3(時間×頻率)的核大小。請注意,每個解碼器層的特徵圖的數量因跳躍連線(cat)而翻倍。

表1:我們提議的CRN的架構。這裡T表示STFT幅度譜中的時間幀數

2.4 LSTM基線

  在我們的實驗中,我們建立了兩個LSTM基線進行比較。在第一個LSTM模型中,採用11幀的特徵視窗(10個過去幀和1個當前幀)來估計目標的一幀(見圖3)。換句話說,11幀的特徵向量被串聯成一個長向量,作為每個時間步長的網路輸入。然而,在第二個LSTM模型中,沒有利用特徵視窗。我們把第一個LSTM模型稱為LSTM-1,第二個稱為LSTM-2。從輸入層到輸出層,LSTM-1分別有11×161、1024、1024、1024和161個單元;LSTM-2分別有161、1024、1024、1024、1024和161個單元。兩個基線都不使用未來資訊,相當於因果系統

3 實驗

3.1 實驗步驟

  在我們的實驗中,我們在WSJ0 SI84訓練集[22]上評估模型,包括來自83個說話人(42個男性和41個女性)的7138句話。在這些說話者中,有6名說話者(3名男性和3名女性)被視為未經訓練的說話者。因此,我們用剩下的77個說話者來訓練模型。為了獲得不受噪音影響的模型,我們從一個聲音效果庫(可在https://www.sound-ideas.com)中使用10 000個噪音進行訓練,持續時間約為126小時。對於測試,我們使用Auditec CD(可在http://www.auditec.com)中的兩個具有挑戰性的噪音(咿呀和食堂)。

圖3:具有11幀(10個過去幀和1個當前幀)特徵視窗的LSTM基線。在每個時間步,11個輸入幀連線到一個特徵向量

  我們建立了一個包括320 000個混合物的訓練集,總時長約為500小時。具體來說,我們將一個隨機選擇的訓練語料與10 000個訓練噪聲中的一個隨機切口混合,信噪比(SNR)從{-5, -4, -3, -2, -1, 0}dB中隨機選擇。為了研究模型的說話人通用性,我們用6個訓練過的說話人(3個男性和3個女性)和6個未訓練過的說話人分別為每個噪音建立兩個測試集。一個測試集包括150個混合物,由6個訓練有素的說話人的25×6個語料建立,而另一個包括150個混合物,由6個未訓練過的說話人的25×6個語料建立。請注意,所有的測試語料都被排除在訓練集之外。我們對測試集使用兩種信噪比,即-5和-2dB。所有訊號的取樣頻率為16kHz。
  這些模型是用Adam優化器[23]訓練的。我們設定學習率為0.0002。平均平方誤差(MSE)作為目標函式。我們使用16個mini-batch的大小來訓練模型。所有的訓練樣本都填充了0,使其具有與最長樣本相同的時間步長。通過交叉驗證選擇最佳模型。

3.2 實驗結果

  在本研究中,我們使用STOI和語音質量感知評價(PESQ)[24]作為評價指標。表2和表3分別列出了受過訓練的說話人和未受過訓練的說話人的未處理和已處理訊號的STOI和PESQ分數。在每一種情況下,最好的結果都用黑體字的數字來表示。如表2和表3所示,LSTM-1和LSTM-2對受訓者和未受訓者的STOI和PESQ得分相似,這意味著在LSTM-1中使用特徵窗並不能提高效能。另一方面,我們提出的CRN在這兩個指標上都一直優於LSTM基線。例如,在信噪比為-5 dB時,CRN比LSTM模型提高了約2%的STOI和約0.1的PESQ。對比表2和表3的結果,我們可以發現,CRN對未經訓練的說話者有很好的概括作用。在最具挑戰性的情況下,未經訓練的說話人的語料與兩個未經訓練的噪音在-5dB的位置混合,CRN比未經處理的混合物產生18.56%的STOI改進和0.55的PESQ改進。

圖 4:LSTM-1、LSTM-2 和 CRN 在訓練集和測試集上的訓練時期的均方誤差

所有模型都使用由六個未經訓練的說話者組成的測試集對未經訓練的胡言亂語進行評估

  CRN利用了批量歸一化的優勢,它可以很容易地用於卷積操作,以加速訓練和提高效能。圖4比較了不同模型在訓練歷時中的訓練和測試MSEs,其中模型是在6個未訓練的說話人的測試集上評估的。 我們觀察到,與兩個LSTM模型相比,CRN收斂得更快,並取得更低的MSEs。此外,CRN的可訓練引數比LSTM模型少,如圖5所示。這主要是由於在卷積中使用了共享權重。由於引數效率較高,CRN比LSTM更容易訓練。
  此外,CRN中的因果卷積能捕捉到輸入STFT幅度譜中的區域性空間模式,而不使用未來資訊。相比之下,LSTM模型將每個輸入幀作為一個扁平化的特徵向量,不能充分地利用STFT幅度譜中的T-F結構。另一方面,CRN中的LSTM層對潛在空間中的時間依賴性進行建模,這對獨立於說話人的語音增強中的說話人特徵非常重要。

4 結論

  在這項研究中,我們提出了一個卷積遞迴網路來處理實時應用中與噪音和說話人無關的語音增強。所提出的模型導致了一個因果語音增強系統,其中沒有利用未來資訊。評估結果表明,就STOI和PESQ分數而言,擬議的CRN在訓練過的和未訓練過的說話者方面都一直優於兩個強LSTM基線。此外,我們發現,CRN的可訓練引數比LSTM少。我們相信所提出的模型代表了現實世界應用中的一種強大的語音增強方法,其中理想的屬性通常包括線上操作、單通道操作以及與噪音和說話人無關的模型。

參考文獻

[1] D. L. Wang and J. Chen, Supervised speech separation based on deep learning: an overview, arXiv preprint arXiv:1708.07524, 2017.

[2] J. Agnew and J. M. Thornton, Just noticeable and objectionable group delays in digital hearing aids, Journal of the American Academy of Audiology, vol. 11, no. 6, pp. 330 336, 2000.

[3] D. L. Wang and G. J. Brown, Eds. , Computational auditory scene analysis: Principles, algorithms, and applications. Wiley-IEEE press, 2006.

[4] Y. Wang and D. L. Wang, Towards scaling up classificationbased speech separation, IEEE Transactions on Audio, Speech, and Language Processing, vol. 21, no. 7, pp. 1381 1390, 2013.

[5] Y. Wang, A. Narayanan, and D. L. Wang, On training targets for supervised speech separation, IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), vol. 22, no. 12, pp. 1849 1858, 2014.

[6] Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee, An experimental study on speech enhancement based on deep neural networks, IEEE Signal processing letters, vol. 21, no. 1, pp. 65 68, 2014.

[7] , A regression approach to speech enhancement based on deep neural networks, IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), vol. 23, no. 1, pp. 7 19, 2015.

[8] J. Chen, Y. Wang, S. E. Yoho, D. L. Wang, and E. W. Healy, Large-scale training to increase speech intelligibility for hearingimpaired listeners in novel noises, The Journal of the Acoustical Society of America, vol. 139, no. 5, pp. 2604 2612, 2016.

[9] J. Chen and D. L. Wang, Long short-term memory for speaker generalization in supervised speech separation, Proceedings of Interspeech, pp. 3314 3318, 2016.

[10] , Long short-term memory for speaker generalization in supervised speech separation, The Journal of the Acoustical Society of America, vol. 141, no. 6, pp. 4705 4714, 2017.

[11] M. Kolbæk, Z.-H. Tan, and J. Jensen, Speech intelligibility potential of general and specialized deep neural network based speech enhancement systems, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 25, no. 1, pp. 153 167, 2017.

[12] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, An algorithm for intelligibility prediction of time frequency weighted noisy speech, IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 7, pp. 2125 2136, 2011.

[13] K. Tan, J. Chen, and D. L. Wang, Gated residual networks with dilated convolutions for supervised speech separation, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018, to appear.

[14] Z. Zhang, Z. Sun, J. Liu, J. Chen, Z. Huo, and X. Zhang, Deep recurrent convolutional neural network: Improving performance for speech recognition, arXiv preprint arXiv:1611.07174, 2016.

[15] G. Naithani, T. Barker, G. Parascandolo, L. Bramsl, N. H. Pontoppidan, and T. Virtanen, Low latency sound source separation using convolutional recurrent neural networks, in 2017 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). IEEE, 2017, pp. 71 75.

[16] V. Badrinarayanan, A. Handa, and R. Cipolla, Segnet: A deep convolutional encoder-decoder architecture for robust semantic pixel-wise labelling, arXiv preprint arXiv:1505.07293, 2015.

[17] S. R. Park and J. Lee, A fully convolutional neural network for speech enhancement, arXiv preprint arXiv:1609.07132, 2016.

[18] S. Ioffe and C. Szegedy, Batch normalization: Accelerating deep network training by reducing internal covariate shift, in International conference on machine learning, 2015, pp. 448 456.

[19] X. Glorot, A. Bordes, and Y. Bengio, Deep sparse rectifier neural networks, in Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics, 2011, pp. 315 323.

[20] D.-A. Clevert, T. Unterthiner, and S. Hochreiter, Fast and accurate deep network learning by exponential linear units (elus), arXiv preprint arXiv:1511.07289, 2015.

[21] S. Hochreiter and J. Schmidhuber, Long short-term memory, Neural computation, vol. 9, no. 8, pp. 1735 1780, 1997.

[22] D. B. Paul and J. M. Baker, The design for the wall street journalbased csr corpus, in Proceedings of the workshop on Speech and Natural Language. Association for Computational Linguistics, 1992, pp. 357 362.

[23] D. P. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980, 2014.

[24] A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra, Perceptual evaluation of speech quality (pesq)-a new method for speech quality assessment of telephone networks and codecs, in 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 2. IEEE, 2001, pp. 749 752.