學習一篇關於MMSE的語音訊號增強的演算法
阿新 • • 發佈:2019-01-09
基於高斯分佈的 MMSE 語音增強演算法估計
幀移:幀移後的每一幀訊號都有上一幀的成分,防止兩幀之間的不連續。語音訊號雖然短時可以認為平穩,但是由於人說話並不是間斷的,每幀之間都是相關的,加上幀移可以更好地與實際的語音相接近。
加窗:由於直接對訊號(加矩形窗)截斷會產生頻率洩露,為了改善頻率洩露的情況,加非矩形窗,一般都是加漢明窗,因為漢明窗的幅頻特性是旁瓣衰減較大,主瓣峰值與第一個旁瓣峰值衰減可達40db。
幀移:幀移後的每一幀訊號都有上一幀的成分,防止兩幀之間的不連續。語音訊號雖然短時可以認為平穩,但是由於人說話並不是間斷的,每幀之間都是相關的,加上幀移可以更好地與實際的語音相接近。
加窗:由於直接對訊號(加矩形窗)截斷會產生頻率洩露,為了改善頻率洩露的情況,加非矩形窗,一般都是加漢明窗,因為漢明窗的幅頻特性是旁瓣衰減較大,主瓣峰值與第一個旁瓣峰值衰減可達40db。
頻譜洩露(截斷效應):訊號為無限長序列,運算需要擷取其中一部分(截斷),於是需要加窗函式,加了窗函式相當於時域相乘,於是相當於頻域卷積,於是頻譜中除了本來該有的主瓣之外,還會出現本不該有的旁瓣,這就是頻譜洩露!為了減弱頻譜洩露,可以採用加權的窗函式,加權的窗函式包括平頂窗、漢寧窗、高斯窗等等。而未加權的矩形窗洩露最為嚴重。頻譜洩露就是分析結果中,出現了本來沒有的頻率分量。
先驗信噪比:先可以是方差,一階統計量是均值,二階統計量方差對應能量,但是具體計算的時侯不一定非得用方差。
後驗 觀測訊號的能量(signal+noise)與noise能量的比值,當然這個noise的能量是你估計出來的,只是一個估計值。。。
就是比如你觀察到的訊號是 signal+ noise,此時的signal 與noise的能量比就是先驗信噪比,當然一般算的是signal的估計值與noise的估計值的能量比。
當然這個值是根據你的觀測向量算出來的。那還有一個後驗的信噪比,指的是觀測訊號與noise的能量比。
MMSE演算法:
利用已經有的觀測量 估計估計量的取值,減小關於估計量的不確定性
估值:
利用已有的觀測量的資訊,
估計估計量的取值,
減小關於估計量的不確定性。
1
均方誤差最小的估值問題
均方誤差最小的估值問題
設
ξ
和
η
是兩個隨機向量,
兩者存在聯合分佈,
設
η
是觀察向量,
通過
η
對
ξ
進行
估值,求均方誤差最小的估值ξ。
{
}
Y
η
K
ξ
Y
η
)
(
η
ξ
ξ
=
−
=
⎭
⎬
⎫
⎩
⎨
⎧
=
−
/
min
/
ˆ
2
2
E
E
,其中
1
2
(
,
)
n
K
k
k
k
τ
=
,……,
為任意向量。