語音增強研究現狀與趨勢分析
本文主要的參考文獻來自於語音及語言資訊處理國家工程實驗室的一篇演講報告
1、語音增強的目標:
受體是機器,目標是提高語音的可懂度(intelligibility)
受體是人,目標是提高語音的質量(quality)
2、語音增強的任務:
語音降噪、語音分離、語音解混響,增強技術很多情況下並不是獨立的,而是需要聯合處理和優化。例如,語音解混
響與降噪,卷積盲源分離與降噪等等
3、研究現狀和趨勢:
語音增強主要包括三個方面:語音降噪、語音分離和語音解混響(可以包含回聲消除)問題。根據接收訊號的通道個數不同又分為單通道和多通道(特別強調二麥情況,因為與人類雙耳對應)等不同情況。基本的演算法都是從混合訊號和乾淨訊號建立的接收訊號模型出發,考慮空間(spatial)、時間(temporal)和譜特性(spectra)三個維度的資訊和訊號處理問題;當然空間資訊需要對應多麥克風情況,單麥克風沒有spatial資訊可以利用。
1)語音降噪研究現狀
無監督語音降噪演算法:
譜減法
將估計的噪聲的功率譜並將其從嘈雜語音中減去;
沒有利用明確的語音模型,其效能在很大程度上叏決亍對干擾源的頻譜跟蹤的好壞,容易產生“無中生有”的音樂 噪聲;
基於統計模型的方法
語音增強問題歸入到一個統計的估計框架中,如Wiener濾波、最小均方誤差(MMSE)方和最大後驗(MAP)法;
一般需要假設語音訊號和噪聲訊號是統計獨立的,且服從特定分佈;
目前來說,模型引數的魯棒估計還是一個比較困難的問題;
基於子空間的斱法
假設乾淨的語音訊號子空間和噪聲子空間是正交的;
這種子空間正交的假設在實際情況中,特別是短時的情冴下是非常不精確的;
傳統的方法對平穩噪聲的抑制效果比較顯著,但是對於非平穩噪聲,其往往不能得到很好的降噪效果
有監督條件下語音降噪演算法:
基於模型的方法因為跟二語音分離訊號模型框架基本相似,參考語音分離部分的內容。
深度神經網路類演算法
構造足夠多的混響資料和對應乾淨資料進行MMSE或者其他標準下的訓練得到模型。
關鍵點在於:資料規整、歸一化/模型泛化/測試不訓練的不匹配/Specific adaptation (如說話人、噪聲環境、混響時間等等)。
有監督類演算法對於非平穩噪聲往往能得到更好的降噪效果
2)語音分離研究現狀
無監督語音分離演算法:
濾波法:
ICA濾波器;(單通道--時頻域實現,多通道均可)
多通道波束濾波器;(Beamforming,多通道)
聽覺場景分析:(CASA, 單通道,多通道均可)
基音週期的魯棒估計和追蹤問題;高頻部分的濁音分離問題;序列聚類問題;清音的分離問題;聚類後的二值時頻掩碼平滑問題。
有監督條件下語音分離演算法:
基於模型的方法:
採用預先訓練的模型(引數戒者pattern)來描述每個源訊號,而這個模型則作為分離階段的先驗知識。(訓練(訓練集)--測試(測試集))
引數類:正弦引數模型、AR和variance(LPC)引數、GMM引數描述各語音分佈以及mix分佈
Pattern類:向量量化(VQ)、字典學習類演算法(DL、SNMF和SCMF以及PLCA類)
測試:一般將混合訊號帶入到訓練得到的引數模型構建的乾淨語音的可能組合所建立的距離目標凼數中,利用優化演算法求解最優引數選擇,然後利用得到的引數構建濾波器;
上述模型和HMM結合產生的更好描述訊號Temporal性質的演算法:
AR-HMM;FSHMM;以及N-FHMM。
深度神經網路類演算法:
3)語音解混響研究現狀:
無監督語音解混響演算法:
基於復倒譜域的濾波演算法(單、多通道):
在復倒譜域純淨語音訊號的復倒譜通常分佈在靠近原點的附近,而房間衝擊響應的復倒譜主要分佈在遠離原點的地斱。一般採用低通濾波器的低時窗濾除相應的混響部分,然後再通過逆向操作,獲得解混響的聲源訊號。
基於波束形成的演算法(多通道):
接受特定方向訊號,大幅降低其他方向的干擾和混響成分;
要實現比較好的效果的話,對麥克風數目要求比較多;
單通道的語音解混響問題丌能運用此類斱法。
抑制後期混響的譜減法(單、多通道):
該類演算法一般區分混響語音為前期混響成分和後期混響成分。利用統計方法和混響時間模型估計後期混響成分的方差,然後構建時變濾波函數實現去除後期混響成分的功能;
一般應用於單通道解混響或者和其他解混響演算法共同使用;
該類演算法一般在能量譜域實現,演算法比較穩健,但由於非線性變換破壞相位,不能放置在其他需要相位資訊的增強演算法之前。
線性濾波器法(單、多通道—以多通道研究為主):
逆濾波器法:通過估計房間傳遞函式,然後對混響語音逆濾波實現解混響的目標。實際情況下,往往不能準確估計房間傳遞函式,並且由於房間傳遞函式是實時發化的,計算量大,效果不好;
基於概率模型類的演算法:通過假定混響語音訊號為房間傳遞函式和語音訊號的自迴歸或者卷積傳遞函式模型且對語音建立零均值、時變方差的高斯分佈,實現對解混響目標語音的建模,利用最大似然等方法求解模型中的所有引數,最後實現解混響得到估計的乾淨語音。該類演算法一般要求通道個數大於1。
有監督條件下語音解混響演算法:
基於非負矩陣分解/非負卷積訊號模型:
基於對房間傳遞函式和語音訊號的分析,建立對混響訊號時頻幅度譜或者能量譜進行非負矩陣分解或者非負矩陣反捲積的語音解混響和降噪模型;
該類模型通常利用已有語音資料訓練得到關亍語音和噪聲訊號的模型表示。
基亍深度神經網路類演算法: