論文翻譯:2021_論文翻譯:2018_F-T-LSTM based Complex Network for Joint Acoustic Echo Cancellation and Speech Enhancement
論文地址:https://arxiv.53yu.com/abs/2106.07577
基於 F-T-LSTM 複雜網路的聯合聲學回聲消除和語音增強
摘要
隨著對音訊通訊和線上會議的需求日益增加,在包括噪聲、混響和非線性失真在內的複雜聲學場景下,確保聲學回聲消除(AEC)的魯棒性已成為首要問題。儘管已經有一些傳統的方法考慮了非線性失真,但它們對於回聲抑制仍然效率低下,並且在存在噪聲時效能會有所衰減。在本文中,我們提出了一種使用複雜神經網路的實時 AEC 方法,以更好地建模重要的相位資訊和頻率時間 LSTM (F-T-LSTM),它掃描頻率和時間軸,以實現更好的時間建模。此外,我們利用修改後的 SI-SNR 作為損失函式,使模型具有更好的回聲消除和噪聲抑制 (NS) 效能。僅使用 140 萬個引數,所提出的方法在平均意見得分 (MOS) 方面優於 AEC challenge 基線 0.27。
關鍵字:回聲消除、複雜網路、非線性失真、噪聲抑制;
1 引言
回聲是在全雙工語音通訊系統中產生的,由於近端揚聲器和麥克風之間的聲學耦合,遠端使用者接收到他/她自己的語音的修改版本。回聲消除 (AEC) 旨在消除麥克風訊號中的回聲,同時最大限度地減少近端說話者語音的失真。傳統的基於數字訊號處理 (DSP) 的 AEC 通過使用自適應濾波器 [1, 2, 3] 估計聲學回聲路徑來工作。但在實際應用中,由於回波路徑變化、背景噪聲和非線性失真等問題,它們的效能可能會嚴重下降。背景噪聲在真正的全雙工語音通訊系統中是不可避免的。然而,傳統的語音增強方法與 AEC [4] 相結合,對這種干擾尤其是非平穩噪聲的魯棒性不夠。非線性失真通常由低質量的揚聲器、功率過大的放大器和設計不佳的外殼引起;即使是適度的非線性失真也會顯著降低線性 AEC 模型的效能 [5]。一般來說,後置濾波方法 [6, 7, 8] 被進一步用於傳統的 AEC,但這些方法對於回聲抑制仍然效率低下。
由於其強大的非線性建模能力,深度學習的最新進展在聲學回聲消除方面顯示出巨大的潛力。有一些方法將傳統的訊號處理與神經網路相結合來處理 AEC 任務。Ma等人[9] 使用自適應濾波器處理線性回聲以及用於殘餘非線性回聲消除的輕量級 LSTM 結構。Fazel等人 [10] 設計了一個具有頻域 NLMS 的深度上下文注意模組,以自適應地估計近端語音的特徵。Wang等人[11] 和 Valin 等人[12] 在最近的 AEC 挑戰中也取得了有競爭力的結果 [13]。 Zhang 和 Wang [14] 將 AEC 表述為一個有監督的語音分離問題,其中採用雙向長短期記憶 (BLSTM) 網路來預測麥克風訊號幅度的掩碼。此後,許多基於語音增強/分離網路的AEC演算法被提出。韋斯特豪森等人。 [15] 通過將遠端訊號連線為附加資訊來擴充套件 DTLN [16]。Chen等人[17] 在 ConvTasNet [18] 的修改的基礎上,提出了一種帶有卷積網路的殘餘回波抑制 (RES) 方法,Kim 等人[19] 提出了一種基於 Wave-U-Net [20] 的輔助編碼器和注意力網路,以有效抑制回聲。
最近在語音增強方面的研究 [21, 22] 顯示了使用複雜網路的顯著優勢,該網路同時處理幅度和相位,從而在語音增強方面取得卓越的效能。與實值網路相比,複雜網路甚至可以以更小的引數[22]獲得更好的效能。優異的效能主要歸功於相位資訊的有效利用。此外,基於複雜領域的方法在深度噪聲抑制(DNS)挑戰中取得了整體更好的主觀聆聽效能[13]。
在本文中,受複雜網路最新進展的啟發,我們通過採用複雜的編碼器-解碼器結構化網路來解決 AEC 任務。據我們所知,這是第一個在 AEC 任務中採用複雜網路的工作。具體來說,我們分別使用複雜的 Conv2d 層和複雜的 Transposed-Conv2d 層作為編碼器和解碼器來模擬來自遠端和近端訊號的複雜頻譜,並使用複雜的 LSTM 層作為掩碼估計模組。受 F-T-LSTM [23] 的啟發,我們在編碼器提取的高維特徵的頻率軸上執行遞迴。頻率軸上的雙向 F-LSTM 可以讓網路更好地學習頻段之間的關係,隨後的 T-LSTM 掃描時間軸,旨在進一步去除回波訊號。我們還採用分段的 Si-SNR 作為我們網路的損失函式。僅使用 1.4M 引數,所提出的方法在平均意見得分 (MOS) 方面優於 AEC 挑戰基線 0.27。
2 提出方法
2.1 問題表述
我們在圖 1 中說明了聲學回聲消除的訊號模型。麥克風訊號 y(n) 由近端語音 s(n)、聲學回聲 d(n) 和背景噪聲 v(n) 組成:
\[y(n)=s(n)+d(n)+v(n) (1) \]其中 \(n\) 是指時間樣本索引。 $d(n) $ 是由遠端訊號 $x(n) $ 得到的,如圖 1 所示,它也可能有揚聲器引起的非線性失真。 $h(n) $ 表示聲學回聲路徑。聲學回聲消除任務是在 $x(n) $ 已知的前提下,將$s(n) $ 與 $y(n) $ 分開。
圖 1:聲學回聲場景圖。
2.2 架構
如圖 2 所示,我們的深度複雜 AEC 網路由三個模組組成:複雜編碼器-解碼器網路、F-TLSTM 和複雜 LSTM。
圖 2:提出的網路系統流程圖。
(A) 紅色虛線區域顯示 \(y(n)\) 和 \(x(n)\) 之間的時間延遲。
(B) F-T-LSTM-real 和 F-T-LSTM-imag 分別用於對高維複雜特徵的實部和虛部進行建模。 (C) \(y(n)\) 和 \(x(n)\) 分別通過 STFT 轉換為 \(Y\) 、 \(X\) 。估計的訊號\(\hat{s}(n)\)是通過逆STFT 重構的。
對於順序輸入\(w \in \mathbb{R}^{2 \times N}\),其中\(N\)是音訊取樣點的數量,2 表示兩個訊號——\(y(n)\) 與 \(x(n)\) 堆疊。對輸入訊號 \(w\) 進行 STFT,我們得到復譜\(W=W_{r}+j W_{i}, W \in \mathbb{R}^{4 \times T \times F}\) ,其中輸入復矩陣\(W_{r}\)和\(W_{i}\)分別表示具有相同張量維度\(\mathbb{R}^{2 \times T \times F}\)的 \(W\) 的實部和虛部。 \(T\) 表示幀數,\(F\) 表示 STFT 之後的頻率維度。復卷積/反捲積濾波器 \(K\) 定義為 \(K=K_{r}+j K_{i}\),其中實值矩陣 \(K_{r}\)和\(K_{i}\)分別代表複核的實部和虛部。復運算\(W \circledast K\)定義為:
\[ H=\left(K_{r} * W_{r}-K_{i} * W_{i}\right)+j\left(K_{r} * W_{i}+K_{i} * W_{r}\right) \] \[ H=H_{r}+j H_{i}, H \in \mathbb{R}^{C \times M \times T}, H_{r} \text { and } H_{i} \in \mathbb{R}^{C \times N \times T} (2) \]\(C\)表示輸出通道,\(M\)表示卷積/反捲積後的頻率維度變化,\(N=M / 2\)。
實頻譜的 F-T-LSTM 模組可以描述如下(虛頻譜相同):
\[ \text { F-LSTM: }\left\{\begin{array}{l} U=\left[f\left(H_{r}^{\text {reshape }}[:, i,:]\right), i=1, \ldots, M\right] \\ V=H_{r}+U^{\text {reshape }} \end{array}\right. \] \[ \text { T-LSTM: }\left\{\begin{array}{l} Z=\left[h\left(V^{\text {reshape }}[:, i,:]\right), i=1, \ldots, T\right] \\ Z_{\text {out }}=V+Z^{\text {reshape }} \end{array}\right. (3) \]其中,\(H_{T}^{\text {reshape }}\)和\(U \in \mathbb{R}^{T \times N \times C}\)。\(U^{\text {reshape }}, Z^{\text {reshape }}, V\)和\(Z_{\text {out }} \in \mathbb{R}^{C \times N \times T}\)。\(V^{\text {reshape }}\) 和 \(Z \in \mathbb{R}^{N \times T \times C}\)。\(f(\cdot)\) 是 F-LSTM 定義的對映函式,它始終是雙向 LSTM,應用於\(H_{r}^{\text {reshape }}\)的頻率維度。\(h(\cdot)\)是T-LSTM定義的對映函式,掃描時間軸。複雜解碼器之後是具有前瞻一幀的 Deepfilter[24],最後使用 [22] 中定義的 2 個複雜 LSTM 層來估計 $y(n) $ 的複雜掩碼。
我們的模型配置的詳細描述如表 1 所示。複雜的 Conv2d/Transpose-Conv2d 層的超引數以(核心大小、步幅、輸出通道)格式給出。我們在每個 LSTM 之後省略了 Dense 層,它使維度與輸入張量保持一致。
表 1:我們提出的方法的配置。
c-代表complex的縮寫。 ×2 表示複核的實部和虛部。
2.3 訓練目標
我們估計通過訊號近似 (SA) 優化的複比率掩碼 (CRM) [25]。 CRM可以定義為:
\[ \mathrm{CRM}=\frac{Y_{r} S_{r}+Y_{i} S_{i}}{Y_{r}^{2}+Y_{i}^{2}}+j \frac{Y_{r} S_{i}-Y_{i} S_{r}}{Y_{r}^{2}+Y_{i}^{2}} (4) \]其中 \(Y\) 和 \(S\) 分別表示 STFT 之後的 $y(n) $ 和 $s(n) \(。網路的最終預測掩碼\)M=M_{r}+j M_{i}$也可以用極座標表示:
\[ \left\{\begin{array}{l} M_{\text {mag }}=\sqrt{M_{r}^{2}+M_{i}^{2}} \\ M_{\text {phase }}=\arctan 2\left(M_{i}, M_{r}\right) \end{array}\right. (5) \]估計的乾淨語音\(\hat{S}\)可以計算如下:
\[ S=Y_{\text {mag }} \cdot M_{\text {mag }} \cdot e^{Y_{\text {phase }}+M_{\text {phase }}} (6) \]2.4 損失函式
損失函式基於 SI-SNR [26],它已被廣泛用作評估指標。分段 SI-SNR (Seg-SiSNR) 不是計算整個話語的平均 SI-SNR 損失,而是將話語分割成不同的塊,以便區分句子中單說話和雙說話的情況。我們的實驗證明 Seg-SiSNR 在 AEC 任務中比 SI-SNR 效果更好。 Seg-SiSNR 定義為:
\[ \begin{cases}s_{\text {target }} & :=(<\hat{s}, s>\cdot s) /\|s\|_{2}^{2} \\ e_{\text {noise }} & :=\hat{s}-s \\ \text { SI-SNR } & :=10 \log 10\left(\frac{\left\|s_{\text {target }}\right\|_{2}^{2}}{\left\|e_{\text {noise }}\right\|_{2}^{2}}\right) \\ \text { Seg-SiSNR } & :=\frac{1}{c} \sum_{i=1}^{c} \operatorname{SI-SNR}\left(\hat{s}_{\text {seg } i}, s_{\text {seg } i}\right)\end{cases} (7) \]其中\(s\)和\(\hat{S}\)分別是乾淨的和估計的時域波形。\(<\cdot, \cdot>\)表示兩個向量之間的點積,\(\|\cdot\|_{2}\)是歐幾里得範數(L2範數)。 \(c\) 表示從 \(s\)和 \(\hat{s}\)中劃分出的塊數。 \(*_{\operatorname{seg} i}\)表示第 \(i\) 個語音片段。我們計算 c = 1、10、20 的 Seg-SiSNR 損失,並將它們加在一起作為最終的損失函式。
3 實驗
3.1 資料集
我們對 AEC 挑戰資料 [13] 進行了實驗,以驗證所提出的方法。為了訓練網路,需要準備四種類型的訊號:近端語音、背景噪聲、遠端語音和相應的回聲訊號。
對於近端語音 $s(n) $,官方合成數據集包含 10,000 個話語,我們選擇前 500 個話語作為不參與訓練的測試集。其餘 9,500 個話語,以及從 LibriSpeech [27] train-clean-100 子集中隨機選擇的 20,000 個話語(約 70 小時)用於訓練。
對於背景噪聲 $v(n) $,我們從 DNS [28] 資料(大約 80 小時)中隨機選擇噪聲,其中 20,000 個用於生成測試集,其餘用於訓練。
對於遠端語音\(x(n)\)和回聲訊號\(d(n)\),與近端情況類似,使用官方合成數據集的前500句作為測試集。此外,我們使用AEC挑戰賽提供的真實遠端單人通話錄音(約37小時),涵蓋多種語音裝置和回聲訊號延遲。
為了與另一種具有可重複程式碼的競爭方法——DTLN-AEC [15] 進行公平比較,我們還將 AEC 挑戰 2020 中的資料僅用於訓練和測試。為了區分不同資料上的結果,我們使用字尾 *-20 和 *-21 來分別區分 AEC challenge 2020 和 2021 中使用的資料集。
3.2 資料增強
線上資料生成。我們在訓練前準備近端語音\(s(n)\)、背景噪聲\(v(n)\)、遠端語音\(x(n)\)和回聲訊號\(d(n)\),並根據隨機選擇的訊號對這四個訊號進行組合噪聲比 (SNR)、訊號回波比 (SER) 或其他概率因素。在我們的實現中,\(\mathrm{SNR} \in[5,20] \mathrm{dB}\) 和 \(\mathrm{SER} \in[-10,13] \mathrm{dB}\)。在雙方通話期間評估的 SNR 和 SER 定義為:
\[ \mathrm{SNR}=10 \log _{10}\left[\sum_{n} s^{2}(n) / \sum_{n} v^{2}(n)\right] (8) \] \[ \mathrm{SER}=10 \log _{10}\left[\sum_{n} s^{2}(n) / \sum_{n} d^{2}(n)\right] (9) \]其他概率因子設定如下。有 30% 的概率將 $x(n) $ 和 $d(n) $ 設定為零,這樣可以模擬近端單講的情況,噪聲訊號 $ (v(n)) $ 設定為 0 和 50 % 概率。對於即時資料生成,各種隨機因素可以保證訓練資料的多樣性,尤其是在回波訊號資料集不足的情況下。
遠端訊號的延遲。遠端訊號在被麥克風接收之前會經歷各種延遲。如圖 2 所示,這種延遲在實際條件下是無法避免的。裝置的硬體效能和處理演算法,以及通話過程中的網路波動,可能會引入延遲。在傳統的基於 DSP 的方法中,需要一個時間延遲估計 (TDE) 模組來對齊麥克風和遠端訊號。然而,由於非線性變化和背景噪聲干擾,在實際中TDE估計容易出現誤差。我們將對齊的麥克風訊號隨機延遲 0 到 100 毫秒,以模擬此類錯誤。
增益變化。我們對回聲訊號 $d(n) $ 和遠端語音 $x(n) $ 應用隨機放大。具體來說,我們隨機選擇 $d(n) $ 和 $x(n) $之間的 3s 段衰減 20dB 到 30dB。隨機衰減訊號的概率為 20%。此外,通過簡單的最大歸一化,[0.3, 0.9] 的幅度範圍隨機應用於兩個訊號,這種變化使網路對幅度變化不敏感。
近端訊號的混響。使用影象方法 [29] 生成房間脈衝響應 (RIR)。為了擴大資料多樣性,我們模擬了 1000 個大小為 \(a \times b \times h\)m 的不同房間用於訓練混合,其中\(a \in[5,8], b \in[3,5]\) 和$ h \in[3, 4] $。我們在每個房間中隨機選擇 10 個位置,具有隨機的麥克風-揚聲器 (M-L) 距離 ([0.5, 5]m) 來生成 RIR。 RIR 的長度設定為 0.5s,混響時間 (RT60) 從 [0.2, 0.7]s 中隨機選擇。總共建立了 10,000 個 RIR。我們使用前 500 個 RIR 生成測試集,其餘用於訓練。對於動態資料生成,RIR 僅用於以 50% 的概率與近端語音 \(s(n)\)進行卷積。遠端語音 $x(n) $ 和回聲訊號 $d(n) $ 要麼已經混響,要麼已經在不同房間 [13] 中進行了真實錄音,因此不需要混響。
3.3 效能指標
所提出的方法是根據 ERLE [30] 評估單次通話期間的。語音質量感知評估 (PESQ) [31]、短時客觀可理解性 (STOI) [32] 用於雙方通話期間。 AEC 挑戰還提供了基於平均 P.808 平均意見得分 (MOS) [33] 的主觀評估結果。在本研究中,ERLE 定義為:
\[ \mathrm{ERLE}=10 \log _{10}\left[\sum_{n} y^{2}(n) / \sum_{n} \hat{s}^{2}(n)\right] (10) \]這種ERLE變體體現了系統實現的綜合回聲和噪聲衰減,更接近實際應用場景。
3.4 實驗設定
視窗長度和跳數分別為 20ms 和 10ms。然後對每個時間幀應用 320 點短時傅立葉變換 (STFT) 以產生復光譜。我們的訓練資料的塊大小設定為 10s。我們的模型使用 Adam 優化器 [34] 訓練了 100 個 epoch,初始學習率為 1e-3,如果兩個 epoch 沒有改善,學習率需要減半。模型的整個引數為1.4M,如果特別指出,使用SI-SNR loss進行訓練或Seg-SiSNR loss。系統總延遲為40ms。我們網路的實時因子(RTF)為 0.4385,在單核 Intel(R) Xeon(R) CPU [email protected] 上測試。一些處理過的音訊片段可以在這個頁面3中找到。
3.5 結果和分析
在表 2 中,我們比較了 AEC 挑戰資料集中的不同方法。由於非線性失真和噪聲干擾,WebRTC-AEC3 在 PESQ 和 STOI 的檢視中效果不佳。我們的方法在所有條件下都優於 BLSTM [14](4 個 BLSTM 層,300 個隱藏單元)和 AEC 挑戰基線 [13](2 個 GRU 層,322 個隱藏單元)。除了在頻率和時間軸上迴圈的 DC-F-T-LSTM-CLSTM 之外,我們還嘗試了在通道和時間軸上迴圈的 DC-C-T-LSTM-CLSTM 進行比較。在幾乎相同數量的引數下,我們的實驗證明在頻率軸上進行遞迴更有效。與 DTLN-AEC-20 相比,DC-F-T-LSTM-CLSTM-20
明顯以更少的引數帶來了更好的效能。 Dataset21 表示 AEC 挑戰 2021 資料集和來自 LibriSpeech 的 60 小時近端演講。我們注意到 PESQ 隨著使用更多真實資料而變得更糟,這是因為一些包含近端語音的無效遠端單講剪輯沒有被消除。即使使用這些無效剪輯,使用 Seg-SiSNR 作為成本函式也顯示出改進並獲得了最佳結果。圖 3 展示了我們的方法在相同訓練資料集下的改進以及使用 Seg-SiSNR 損失抑制殘餘噪聲的更好能力。
表 2:在雙方對話的情況下,我們使用動態資料生成評估 PESQ 和 STOI,SER∈ [-13, 10]dB,SNR∈ [5, 20]dB。我們在盲測集中評估遠端單話場景的 ERLE。
圖 3:不同模型在真實雙向盲測樣本上的比較。
表 3 顯示,除了 ST-NE 條件外,我們的方法顯著優於 AEC 挑戰基線。整體 MOS 提升高達 0.27。 ST-NE 的情況可能是由於動態生成訓練資料時 SER ([−13, 10] dB) 和 SNR([5, 20] dB) 範圍窄,導致 ST 的資料覆蓋不足-NE 場景(高 SNR/SER 場景)並在此場景中導致可感知的語音失真。我們將在未來解決這個問題。
表 3:AEC 挑戰盲測集的 MOS 主觀評分。置信區間為 0.02(ST = 單方通話,DT = 雙方通話,NE = 近端,FE = 遠端,DT-ECHO 表示與殘餘回聲更相關,DTOther 表示與其他退化更相關)。
4 結論
這項研究表明,我們提出的神經 AEC 系統 DC-F-T-LSTM-CLSTM 具有更小的引數大小和更低的執行時延遲,與競爭方法相比,可以實現更好的回聲消除和噪聲抑制效能。我們驗證了幅度和相位資訊可以更有效地與複雜操作和 F-T-LSTM 模組一起使用。使用 Seg-SiSNR 作為代價函式,可以進一步抑制殘餘回波和噪聲。還報告了雙方對話場景、背景噪聲情況和真實錄音的實驗結果,證明我們的方法在具有挑戰性的聲學回聲條件下是有效的。在未來的工作中,我們將優化資料生成策略以更好地適應真實的聲學環境,並考慮較低複雜度和混合 DSP/神經網路方法。
5 參考文獻
[1] J. Benesty, M. M. Sondhi, and Y. Huang, Springer handbook of speech processing. Springer, 2007.
[2] D. Mansour and A. Gray, “Unconstrained frequency-domain adaptivefilter,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 30, no. 5, pp. 726–734, 1982.
[3] J.-S. Soo and K. Pang,“Multidelay block frequency domain adaptivefilter,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 38, no. 2, pp. 373–376, 1990.
[4] S. Gustafsson, R. Martin, P. Jax, and P. Vary,“A psychoacoustic approach to combined acoustic echo cancellation and noise reduction,” IEEE Transactions on Speech and Audio Processing,vol. 10, no. 5, pp. 245–256, 2002.
[5] D. A. Bendersky, J. W. Stokes, and H. S. Malvar,“Nonlinear residual acoustic echo suppression for high levels of harmonic distortion,” in 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, 2008, pp. 261–264.
[6] E. Hänsler and G. Schmidt, Acoustic echo and noise control: a practical approach. John Wiley and Sons, 2005, vol. 40.
[7] V. Turbin, A. Gilloire, and P. Scalart,“Comparison of three postfiltering algorithms for residual acoustic echo reduction,” in 1997 IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 1, 1997, pp. 307–310 vol.1.
[8] S. Boll,“Suppression of acoustic noise in speech using spectral subtraction,” IEEE Transactions on acoustics, speech, and signal processing, vol. 27, no. 2, pp. 113–120, 1979.
[9] L. Ma, H. Huang, P. Zhao, and T. Su,“Acoustic echo cancellation by combining adaptive digitalfilter and recurrent neural network,”2020.
[10] A. Fazel, M. El-Khamy, and J. Lee,“Cad-aec: Context-aware deep acoustic echo cancellation,” in ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 6919–6923.
[11] Z. Wang, Y. Na, Z. Liu, B. Tian, and Q. Fu,“Weighted recursive least squarefilter and neural network based residual echo suppression for the aec-challenge,” in ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2021, pp. 141–145.
[12] J.-M. Valin, S. Tenneti, K. Helwani, U. Isik, and A. Krishnaswamy,“Low-complexity, real-time joint neural echo control and speech enhancement based on percepnet,” in ICASSP 2021- 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2021, pp. 7133–7137.
[13] R. Cutler, A. Saabas, T. Parnamaa, M. Loide, S. Sootla, M. Purin, H. Gamper, S. Braun, K. Sorensen, R. Aichner, and S. Srinivasan,“Interspeech 2021 acoustic echo cancellation challenge: Datasets and testing framework,” in INTERSPEECH 2021, 2021.
[14] H. Zhang and D. Wang,“Deep learning for acoustic echo cancellation in noisy and double-talk scenarios,” Training, vol. 161,no. 2, p. 322, 2018.
[15] W. N. L. and M. B. T.,“Acoustic echo cancellation with the dualsignal transformation lstm network,” in ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2021, pp. 7138–7142.
[16] N. L. Westhausen and B. T. Meyer,“Dual-signal transformation lstm network for real-time noise suppression,” arXiv preprint arXiv:2005.07551, 2020.
[17] H. Chen, T. Xiang, K. Chen, and J. Lu,“Nonlinear residual echo suppression based on multi-stream conv-tasnet,” 2020.
[18] Y. Luo and N. Mesgarani, “Conv-tasnet: Surpassing ideal time–frequency magnitude masking for speech separation,”IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 8, pp. 1256–1266, 2019.
[19] J.-H. Kim and J.-H. Chang,“Attention wave-u-net for acoustic echo cancellation,” Proc. Interspeech 2020, pp. 3969–3973, 2020.
[20] D. Stoller, S. Ewert, and S. Dixon,“Wave-u-net: A multi-scale neural network for end-to-end audio source separation,” arXiv preprint arXiv:1806.03185, 2018.
[21] H.-S. Choi, J.-H. Kim, J. Huh, A. Kim, J.-W. Ha, and K. Lee,“Phase-aware speech enhancement with deep complex u-net,”arXiv e-prints, pp. arXiv–1903, 2019.
[22] Y. Hu, Y. Liu, S. Lv, M. Xing, S. Zhang, Y. Fu, J. Wu, B. Zhang, and L. Xie,“Dccrn: Deep complex convolution recurrent network for phase-aware speech enhancement,” arXiv preprint arXiv:2008.00264, 2020.
[23] J. Li, A. Mohamed, G. Zweig, and Y. Gong,“Lstm time and frequency recurrence for automatic speech recognition,” in 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU), 2015, pp. 187–191.
[24] W. Mack and E. A. P. Habets,“Deepfiltering: Signal extraction and reconstruction using complex time-frequencyfilters,” IEEE Signal Processing Letters, vol. 27, pp. 61–65, 2020.
[25] D. S. Williamson, Y. Wang, and D. Wang,“Complex ratio masking for monaural speech separation,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, no. 3, pp. 483–492, 2016.
[26] E. Vincent, R. Gribonval, and C. Fevotte,“Performance measurement in blind audio source separation,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 14, no. 4, pp. 1462–1469, 2006.
[27] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur,“Librispeech: An asr corpus based on public domain audio books,”in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015, pp. 5206–5210.
[28] C. K. Reddy, H. Dubey, K. Koishida, A. Nair, V. Gopal, R. Cutler, S. Braun, H. Gamper, R. Aichner, and S. Srinivasan,“Interspeech 2021 deep noise suppression challenge,” arXiv preprint arXiv:2101.01902, 2021.
[29] J. B. Allen and D. A. Berkley,“Image method for efficiently simulating small-room acoustics,” The Journal of the Acoustical Society of America, vol. 65, no. 4, pp. 943–950, 1979.
[30] S. Theodoridis and R. Chellappa, Academic Press Library in Signal Processing: Image, Video Processing and Analysis, Hardware, Audio, Acoustic and Speech Processing. Academic Press, 2013.
[31] A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra, “Perceptual evaluation of speech quality (pesq)-a new method for speech quality assessment of telephone networks and codecs,” in 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No. 01CH37221), vol. 2.IEEE, 2001, pp. 749–752.
[32] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen,“A shorttime objective intelligibility measure for time-frequency weighted noisy speech,” in 2010 IEEE International Conference on Acoustics, Speech and Signal Processing, 2010, pp. 4214–4217.
[33] R. Cutler, B. Nadari, M. Loide, S. Sootla, and A. Saabas,“Crowdsourcing approach for subjective evaluation of echo impairment,”in ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021, pp.406–410.
[34] D. P. Kingma and J. Ba,“Adam: A method for stochastic optimization,” arXiv preprint arXiv:1412.6980, 2014.