基於深度神經網路的回聲消除和噪聲抑制的任務分割

阿新 • • 發佈：2022-05-18

本文是微軟對語音前端pipeline基於任務解耦方面的相關工作。區別於目前流行的傳統線性AEC+以（線性AEC輸出/傳聲器接收訊號/遠端訊號）作為輸入的深度神經網路的結構；採用了NN回聲估計+以(估計回聲和去回聲後的粗譜)作為輸入的神經網路的結構，繼承了語音增強中任務解耦的思路^[1]^[2]。

論文題目：Task splitting for dnn-based acoustic echo and noise removal

作者：Sebastian Braun, Maria Luis Valero (微軟)

背景動機

之前任務解耦思路的工作只證明了每個階段會帶來效能收益，以及比基線系統性能更好，但是沒比較過會比相似結構的網路無約束優化更好。

之前任務解耦思路的工作要依次訓練每個階段，訓練過程很耗時

本文貢獻：

設計了一個基於DNN的兩階段系統，該系統由深度聲學回聲消除 (DAEC)和噪聲及殘留回聲抑制(NRES)模組組成。
提出了一種自適應損失以避免繁瑣的多階段訓練。
這種方法，AEC模組只去除回波，這不會產生明顯的訊號失真；NRES去除噪聲和殘留回聲，只引入一定的訊號失真。提出的兩級系統優於單級基線，特別是在訊號失真方面。

模型架構

模型採用CRUSE，詳見CRUSE。

DAEC模組網路輸入幅度譜壓縮後的傳聲器接收訊號和利用幅度平方相干演算法幀對齊的遠端訊號復譜，即輸入通道數為4，輸出得到估計回聲的壓縮譜，解壓縮後與傳聲器接收訊號相減得到殘差訊號。

NRES模組輸入殘差訊號和估計回聲的壓縮複數譜，即輸入通道數也為4，網路估計得到多幀濾波器係數，對殘差訊號進行多幀濾波

式中K=1，L=2

AEC的編碼器輸出和NRES的編碼器輸出用帶點卷積的跳轉連線通訊。

損失函式

第一項是CRUSE中的複數譜壓縮MSE損失，第二項是為了防止語音過度抑制，第三項是回聲估計損失，這裡用不壓縮的MAE，因為壓縮損失會導致回聲欠估計嚴重

資料與結果

第一張圖越偏左上的模型越好，其他三張越偏右上的越好。

單階段AEC模型CRUSE-AEC-64具有很好的去回聲效能但降噪效能明顯不如CRUSE-NS-64，因為學習的任務不同
DAEC不降噪，也幾乎不帶來語音失真，只去回聲

只見過AEC資料的DAEC與只見過噪聲資料的CRUSE-NS級聯不如DAEC+NRES聯合訓練或者CRUSE-AEC
在相似的複雜性下，DAEC-64+NRES-64兩級系統的雙講語音失真上略優於單階段相似複雜度的DRUSE-AEC-128，其他指標二者相似。
降低DAEC的複雜度會帶來降噪效能的下降，但是AEC效能變化不明顯

loss的消融實驗

參考

基於深度神經網路的回聲消除和噪聲抑制的任務分割

本文是微軟對語音前端pipeline基於任務解耦方面的相關工作。區別於目前流行的傳統線性AEC+以（線性AEC輸出/傳聲器接收訊號/遠端訊號）作為輸入的深度神經網路的結構；採用了NN回聲估計+以(估計回聲和去回聲後的粗

3、基於Python建立任意層數的深度神經網路

一、神經網路介紹: 　　神經網路演算法參考人的神經元原理(軸突、樹突、神經核)，在很多神經元基礎上構建神經網路模型，每個神經元可看作一個個學習單元。這些神經元採納一定的特徵作為輸入，根據自身的模型得到輸出

【神經網路學習筆記】所有神經網路的關係和分類－附思維導圖

本人沒有找到相關的文獻詳細介紹各個網路的關係的，就自己總結了一下，如果有不對的地方，請指出。

[DNN] 嘗試理解深度神經網路的Large-batch魔咒

2019獨角獸企業重金招聘Python工程師標準>>> [DNN] 嘗試理解深度神經網路的Large-batch魔咒

神經網路中concatenate和add層的不同

在網路結構的設計上，經常說DenseNet和Inception中更多采用的是concatenate操作，而ResNet更多采用的add操作，那麼這兩個操作有什麼異同呢？

深度神經網路：筆記（一）

技術標籤：機器學習理論Tensorflow 1 建立神經網路塊卷積神經網路設計目的是以最小的資料處理代價直接從影象中識別出視覺模式。

基於BP神經網路的函式逼近方法以及python實現（含課程論文）

技術標籤：神經網路python人工智慧基於BP神經網路的函式逼近方法（含課程論文）

深度神經網路訓練的必知技巧

原地址：https://blog.csdn.net/u013709270/article/details/70949304 本文主要介紹8種實現細節的技巧或tricks：資料增廣、影象預處理、網路初始化、訓練過程中的技巧、啟用函式的選擇、不同正則化方法、來自於資料的

使用深度神經網路為什麼8位足夠？

深度學習是一種非常奇怪的技術。幾十年來，它的發展軌跡與人工智慧的主流完全不同，在少數信徒的努力下得以生存。幾年前當我開始使用它時，它讓我想起了第一次玩iPhone——感覺我得到了未來送回我們的東西，或者外

中科院軟體所在深度神經網路研究中取得進展：可在漏洞檢測、程式碼克隆檢測等任務中應用

11 月 9 日訊息，據中國科學院官網，近日，中國科學院軟體研究所智慧軟體研究中心研究員武延軍、吳敬徵課題組在基於深度神經網路的靜態程式碼分析研究中取得進展。該課題組提出了基於多型別和多粒度的語義程式碼表示

訓練深度神經網路時調參經驗

訓練深度神經網路時調參經驗 1.如果損失一直比較大，且降不下去，就是說模型在訓練集和測試集上的結果都比較差

Deep neural networks using a single neuron（使用單個神經元的深度神經網路）

提出了一種將任意大小的深度神經網路摺疊成具有多個時間延遲反饋迴路的單個神經元的方法，稱為Folded-in-time DNN。

【學術】將吳恩達的第一個深度神經網路應用於泰坦尼克生存資料集

這篇文章包括了神經網路在kaggle泰坦尼克生存資料集上的應用程式。它幫助讀者加深他們對神經網路的理解，而不是簡單地執行吳恩達程式碼。泰坦尼克生存資料集就是可以隨意使用的一個例子。

【學術】在C ++中使用TensorFlow訓練深度神經網路

你可能知道TensorFlow的核心是用C++構建的，然而只有python的API才能獲得多種便利。

全面直觀認識深度神經網路

作者：石文華編輯：趙一帆 01 深度學習的精準定義一類通過多層非線性變換對高複雜性資料建模演算法的集合。它的兩個非常重要的特徵是多層性和非線性。俗稱多層非線性變換。所以深度學習要去線性化。

如何訓練一個性能不錯的深度神經網路

本文主要介紹8種實現細節的技巧或tricks：資料增廣、影象預處理、網路初始化、訓練過程中的技巧、啟用函式的選擇、不同正則化方法、來自於資料的洞察、整合多個深度網路的方法。

開發 | 深度神經網路視覺化工具集錦

AI 科技評論按：原文作者zhwhong，載於作者的個人部落格，經授權釋出。 TensorBoard:TensorFlow整合視覺化工具

神經網路前向和後向傳播推導（一）：概覽

大家好~本文介紹了前向傳播、梯度下降和後向傳播演算法，總結了神經網路在訓練和推理階段執行的步驟。

微軟 Teams 將支援高保真音樂模式，還有回聲消除、噪音抑制

8 月 5 日訊息外媒 Windows Latest 報道，微軟 Teams 正在獲得一項新功能，如果你在會議或網路研討會中輸入音樂，將大大改善音訊的質量和準確性。這項功能被正式稱為“音樂模式”，它旨在傳輸高保真音樂，以改善線

深度學習基礎-基於Numpy的多層前饋神經網路（FFN）的構建和反向傳播訓練

本文是深度學習入門：基於Python的實現、神經網路與深度學習（NNDL）以及花書的讀書筆記。本文將以多分類任務為例，介紹多層的前饋神經網路（Feed Forward Networks，FFN）加上Softmax層和交叉熵CE（Cr

基於深度神經網路的回聲消除和噪聲抑制的任務分割

背景動機

模型架構

資料與結果

參考

相關推薦