一些常用的語音特徵提取演算法
前言
語言是一種複雜的自然習得的人類運動能力。成人的特點是通過大約100塊肌肉的協調運動,每秒發出14種不同的聲音。說話人識別是指軟體或硬體接收語音訊號,識別語音訊號中出現的說話人,然後識別說話人的能力。特徵提取是通過將語音波形以相對最小的資料速率轉換為引數表示形式進行後續處理和分析來實現的。因此,可接受的分類是從優良和優質的特徵中衍生出來的。Mel頻率倒譜系數(MFCC)、線性預測係數(LPC)、線性預測倒譜系數(LPCC)、線譜頻率(LSF)、離散小波變換(DWT)和感知線性預測(PLP)是本章討論的語音特徵提取技術。這些方法已經在廣泛的應用中進行了測試,使它們具有很高的可靠性和可接受性。研究人員對上述討論的技術做了一些修改,使它們更不受噪音影響,更健壯,消耗的時間更少。總之,沒有一種方法優於另一種,應用範圍將決定選擇哪種方法。
本文主要的關鍵技術:mel頻率倒譜系數(MFCC),線性預測係數(LPC),線性預測倒譜系數(LPCC),線譜頻率(LSF),離散小波變換(DWT),感知線性預測(PLP)
1 介紹
人類通過言語來表達他們的感情、觀點、觀點和觀念。語音生成過程包括髮音、語音和流利性[1,2]。這是一種複雜的自然習得的人類運動能力,在正常成年人中,這項任務是通過脊椎和顱神經連線的大約100塊肌肉協調運動,每秒發出大約14種不同的聲音。人類說話的簡單性與任務的複雜性形成對比,這種複雜性有助於解釋為什麼語言對與神經系統[3]相關的疾病非常敏感。
在開發能夠分析、分類和識別語音訊號的系統方面已經進行了幾次成功的嘗試。為這類任務所開發的硬體和軟體已應用於保健、政府部門和農業等各個領域。說話人識別是指軟體或硬體接收語音訊號,識別語音訊號中出現的說話人,並在[4]之後識別說話人的能力。說話人的識別執行的任務與人腦執行的任務類似。這從語音開始,語音是說話人識別系統的輸入。一般來說,說話人的識別過程主要分為三個步驟:聲音處理、特徵提取和分類/識別[5]。
在提取語音[6]的重要屬性並進行識別之前,對語音訊號進行去噪處理。特徵提取的目的是通過給定數量的訊號分量來描述語音訊號。這是因為聲學訊號中的所有資訊處理起來都過於繁瑣,有些資訊與識別任務無關[7,8]。
特徵提取是通過以相對較低的資料速率將語音波形轉換為引數表示形式進行後續處理和分析來完成的。這通常稱為前端訊號處理[9,10]。它將經過處理的語音訊號轉換成一種簡潔而有邏輯的表示形式,比實際訊號更有鑑別性和可靠性。前端是序列中的初始元素,後續特徵(模式匹配和speaker建模)的質量受到前端[10]質量的顯著影響。
因此,可接受的分類是從優良和優質的特徵中衍生出來的。在當前自動說話人識別(ASR)系統,特徵提取的過程通常被發現表示相對可靠的幾個條件相同的語音訊號,即使在環境條件改變或發言人,同時保留的部分描述語音訊號中的資訊(7、8)。
特徵提取方法通常為每個語音訊號提取一個多維特徵向量。語音訊號的引數化表示方法有很多種,如感知線性預測(PLP)、線性預測編碼(LPC)和mel-頻率倒譜系數(MFCC)。MFCC是最有名和非常受歡迎的[9,12]。特徵提取是說話人識別中最相關的部分。語音特徵在區分說話人與其他[13]人的過程中起著至關重要的作用。特徵提取在不損害語音訊號[14]功率的前提下,降低了語音訊號的幅度。
在特徵提取之前,首先進行預處理階段的序列。預處理步驟是預強調。這是通過一個FIR濾波器[15]來實現的,它通常是一個一階有限脈衝響應(FIR)濾波器[16]。接著是幀阻塞,這是一種將語音訊號分割成幀的方法。它消除了存在於語音訊號[17]的開始和結束處的聲學介面。
然後將加框的語音訊號加窗。帶通濾波器是一個合適的視窗[15],用於最小化每幀開始和結束時的不均勻性。最著名的兩類窗戶是漢明窗和矩形窗[18]。它增加了諧波的銳度,消除了訊號的不連續,減少了幀零的開始和結束。它也減少了由重疊[17]形成的光譜失真。
2 Mel倒頻譜系數(MFCC)
Mel頻率倒譜系數(MFCC)最初被建議用於識別連續口語句子中的單音節詞,但不用於說話人識別。MFCC計算是對人耳聽覺系統的一種複製,它假設人耳是一個可靠的說話人識別器[19],以人為地實現人耳的工作原理。MFCC特徵來源於人耳臨界頻寬的差異,低頻線性間隔的頻率濾波器和高頻對數間隔的頻率濾波器被用來保留語音訊號的語音重要特性。語音訊號通常包含不同頻率的音調,每個音調都有一個實際的頻率,f (Hz),主觀音高在梅爾等級上計算。梅爾頻率標度在1000赫茲以下為線性頻率間隔,在1000赫茲以上為對數頻率間隔。1 kHz音高,高於感知可聽閾值40 dB,定義為1000 mels,作為參考點[20]。
MFCC是在濾波器組的幫助下實現訊號分解的。MFCC給出了在Mel頻標[21]上顯示的短期能量的實對數的離散餘弦變換(DCT)。MFCC用於識別機票預訂、電話號碼和語音識別系統的安全性。為了獲得更好的魯棒性,有人對基本的MFCC演算法進行了一些修改,比如在應用dct0之前將log- mel振幅提升到適當的功率(大約2或3),並減少低能部分[4]的影響。
2.1 演算法說明,優缺點
MFCC是在扭曲的頻率尺度上推匯出的倒譜系數,以人類聽覺感知為中心。在MFCC的計算中,首先對語音訊號進行加窗處理,將語音訊號分割成幀。由於高頻共振峰的振幅比低頻共振峰的振幅要小,所以高頻共振峰的振幅要比低頻共振峰的振幅小。加窗後,應用快速傅立葉變換(FFT)求出各幀的功率譜。然後,利用mel-scale對功率譜進行濾波器組處理。將功率譜變換為對數域後,將離散餘弦變換應用於語音訊號,計算MFCC係數[5]。計算任意頻率的mels的公式是[19,22]
其中mel(f)為頻率(mels), f為頻率(Hz)。
MFCCs的計算公式為[9,19]:
其中k是mel倒譜系數的個數,$\hat{S}_k$是filterbank的輸出,$\hat{C}_n$是最終的mfcc係數。
MFCC處理器的框圖如圖1所示。它總結了獲得所需係數的所有過程和步驟。MFCC比高頻區域更能有效地表示低頻區域,因此,它可以計算低頻範圍內的共振峰,並描述聲道共振。它是典型的說話人識別應用的前端程式,降低了噪聲干擾的脆弱性,會話不一致性小,易於挖掘[19]。此外,當源特徵是穩定和一致的(音樂和語音)[23]時,它是聲音的完美表現。此外,它還可以從取樣訊號中捕獲頻率最大為5千赫的資訊,這封裝了人類[9]發出的聲音的大部分能量。
倒譜系資料說在與人類聲音有關的某些模式識別問題中是準確的。它們廣泛應用於說話人識別和語音識別[21]中。其他共振峰也可能在1khz以上,而且高頻[19]範圍內的濾波器間距較大,不能有效地考慮共振峰。MFCC特徵在背景噪聲存在的情況下並不完全準確[14,24],可能不適用於泛化[23]。
圖1 MFCC處理器的框圖
3 線性預測係數(LPC)
線性預測係數(LPC)模擬人體聲道[16],具有魯棒性強的語音特徵。它通過近似共振峰來評估語音訊號,從語音訊號中去除共振峰的影響,並估計殘留語音訊號的濃度和頻率。結果表明訊號的每個樣本都是前一個樣本的直接結合。差分方程的係數表徵共振峰,因此,LPC需要近似這些係數[25]。LPC是一種功能強大的語音分析方法,它作為一種共振峰估計方法獲得了廣泛的應用。
共振峰出現的頻率稱為共振峰頻率。因此,使用這種技術,通過計算滑動視窗上的線性預測係數,並在隨後的線性預測濾波器[17]的頻譜中找到峰值,可以預測語音訊號中共振峰的位置。LPC有助於在低位元率下對高質量語音進行編碼[13,26,27]。
從線性預測倒譜系數(LPCC)、對數面積比(LAR)、反射係數(RC)、線譜頻率(LSF)和反正弦係數(Arcus Sine coefficients)[13]可以推匯出LPC的其他特徵。LPC通常用於語音重建。LPC方法一般應用於音樂和電氣公司,用於製造移動機器人,在電話公司,小提琴和其他絃樂器的音調分析[4]。
3.1 演算法說明,優缺點
採用線性預測的方法,通過減小輸入語音與估計語音[28]之間的均方誤差,得到等效於聲道的濾波係數。語音訊號的線性預測分析是對給定語音樣本在特定時間段內的預測,其預測結果是前一樣本的線性加權集合。語音生成的線性預測模型為[13,25]
其中^s為預測樣本,s為語音樣本,p為預測係數。
預測誤差為[16,25]:
因此,加窗訊號的每一幀都是自相關的,而自相關值最高的是線性預測分析的階數。然後是LPC分析,每一幀的自相關被轉換成LPC引數集,這些引數集由LPC係數[26]組成。獲取LPC的過程摘要如圖2所示。LPC可由[7]推導
圖2 LPC處理器的框圖。
其中$a_m$為線性預測係數,$k_m$為reflection coefficient(反射係數)
線性預測分析能有效地從給定的語音[16]中選擇聲道資訊。它以計算速度和準確度著稱。LPC很好地代表了穩定一致的[23]源行為。此外,它還被用於語音識別系統中,主要目的是提取聲道特性[25]。它對語音引數的估計非常準確,計算效率也相對較高[14,26]。傳統的線性預測方法存在自相關係數失真的問題。LPC估計值對量化噪聲[30]具有很高的敏感性,可能不適用於泛化[23]。
4 線性預測倒譜系數(LPCC)
線性預測倒譜系數(LPCC)是由LPC計算的頻譜包絡[11]得到的倒譜系數。LPCC是LPC對數幅度譜的傅立葉變換的係數[30,31]。倒譜分析是語音處理領域中常用的一種分析方法,因為它能夠以有限的[31]特徵來完美地表徵語音波形和特徵。
Rosenberg和Sambur觀察到相鄰的預測係數高度相關,因此,具有較少相關特徵的表徵更有效,LPCC就是一個典型的例子。LPC與LPCC的關係最早是由Atal在1974年推匯出來的。從理論上講,在相位訊號[32]最小的情況下,將LPC轉換為LPCC相對容易。
4.1 演算法說明,優缺點
在語音處理中,LPCC類似於LPC,由語音波形的取樣點計算得到,橫軸是時間軸,縱軸是振幅軸[31]。
圖3。LPCC處理器的框圖。
LPCC處理器如圖3所示。它形象地解釋了獲得LPCC的過程。LPCC可以用[7,15,33]來計算
其中am為線性預測係數,Cm為倒譜系數。
LPCC對噪聲[30]的脆弱性較低。與LPC特性[31]相比,LPCC特性的錯誤率更低。高階倒譜系數在數學上是有限的,因此從低階倒譜系數轉移到高階[34]倒譜系數時,產生了極為廣泛的方差陣列。類似地,LPCC估計對量化噪聲[35]非常敏感。高頻語音訊號的倒譜分析給出了低頻域[29]的小源濾波器可分性。低階倒譜系數對譜斜率敏感,而高階倒譜系數對噪聲[15]敏感。
5 線譜頻率(LSF)
線譜對(LSP)的單線稱為線譜頻率(LSF)。LSF定義了發生在人類聲道內連線管模型中的兩種共振情況。該模型考慮了鼻腔和口腔的形狀,為線性預測的基本生理重要性奠定了基礎。這兩種共振情況定義了聲門[36]處聲道要麼完全開啟要麼完全閉合。這兩種情況產生兩組共振頻率,每組共振頻率的數目由連線管的數量來推斷。每一種情況下的共振都是相應的奇偶線譜,並交織成一個奇異上升的LSF[36]群。
LSF表示法是由Itakura[37,38]提出的,用來代替線性預測引數表示法。在語音編碼領域,人們已經認識到該演算法比其他線性預測引數化演算法(LAR和RC)具有更好的量化特性。LSF圖能夠在不影響合成語音質量的前提下,將傳輸線性預測資訊的位元率降低25% ~ 30%[3840]。除量子化外,預測器的LSF圖也適用於插值。從理論上講,將lsf域平方量化誤差與感知相關的對數譜相聯絡的靈敏度矩陣是對角的[41,42],這可以從這一點得到啟發。
5.1 演算法說明,優缺點
LP建立在語音訊號可以由式(3)定義的點上
其中k是時間指數,p是線性預測的階數,$\hat{s}(n)$是預測訊號,$a_k$是LPC係數。
通過自相關或協方差的方法確定$a_k$係數以減小預測誤差。公式(3)可以在頻域中用z-Transform進行修改,因此,語音訊號的一小部分預計將作為輸出給全極點濾波器H(z)。新公式是
其中H(z)是全極點濾波器,A(z)是LPC分析濾波器
為了計算LSF係數,一個逆多項式濾波器被分成兩個多項式P(z)和Q(z)[36,38,40,41]:
其中P(z)是聲門閉合的聲道,Q(z)是階P的LPC分析過濾器。為了將LSF轉換回LPC,使用以下公式[36,41,43,44]
圖4.LSF處理器框圖。
LSF處理器的框圖如圖4所示。LSF在語音壓縮領域的應用最為突出,並擴充套件到說話人識別和語音識別領域。這項技術在其他領域的應用也受到限制。LSF已被研究用於樂器識別和編碼。LSF還被應用於動物噪音識別、個人工具識別和金融市場分析。LSF的優點包括其對光譜靈敏度的定位能力,它們可以表徵頻寬和共振位置,並強調了譜峰定位的重要方面。在大多數情況下,LSF表示為後續的分類[36]提供了一個幾乎最小的資料集。
由於LSF以低於原始輸入樣本的資料速率表示光譜形狀資訊,因此,在LSP領域中仔細使用處理和分析方法可以降低對原始輸入資料本身進行操作的替代技術的複雜性。LSF在聲道資訊從語音編碼器到解碼器的傳輸中起著重要的作用,其良好的量化特性使其得到了廣泛的應用。LSP引數的生成可以使用多種複雜的方法來完成。主要的問題是求出Eqs中定義的P和Q多項式的根。(8)和(9)。這可以通過標準的根解法或更模糊的方法得到,通常在餘弦域[36]中執行。
6 離散小波變換
小波變換(WT)理論的核心是在[45]的時域和頻域使用不同尺度的訊號分析。在理論物理學家Alex Grossmann的支援下,Jean Morlet引入了小波變換,該變換允許以增強的時間解析度識別高頻事件[45 47]。小波是一種有效的有限持續時間的波形,其平均值為零。許多小波也表現出正交性,這是緊湊訊號表示[46]的理想特徵。小波變換是一種訊號處理技術,可以高效地表示現實生活中的非平穩訊號[33,46]。它能夠在時域和頻域同時從瞬態訊號中挖掘資訊[33,45,48]。
利用連續小波變換(CWT)將連續時間函式分解成小波。然而,由於存在資訊冗餘,計算CWT所有可能的尺度和平移需要大量的計算工作,因此限制了它的使用[45]。離散小波變換(DWT)是小波變換(WT)的擴充套件,提高了分解過程[48]的靈活性。它是一種非常靈活和高效的訊號子帶擊穿方法[46,49]。在早期的應用中,線性離散化用於連續小波變換的離散化。Daubechies和其他人開發了一種正交DWT,專門用於分析尺度集(二元離散化)[47]上的有限觀測集。
6.1 演算法說明,優缺點
小波變換將訊號分解成一組稱為小波的基本函式。小波由一個稱為母波的原型小波通過擴充套件和移位得到。小波變換的主要特點是利用可變視窗掃描頻譜,提高了分析的時間解析度[45,46,50]。
wt將訊號分解到經過翻譯和擴充套件的母波上。母波是一個能量有限且衰減快的時間函式。單個小波的不同版本是互相正交的。連續小波變換(CWT)由[33,45,50]給出
其中$\psi (t)$是母小波,a和b是連續引數。
小波變換系數是一個展開式,一個特定的位移代表原始訊號與經過平移和放大的母波的對應程度。因此,與特定訊號相關的CWT (a, b)的係數群是原始訊號相對於母波[45]的小波表示。由於連續小波變換具有較高的冗餘度,因此利用小尺度分析訊號,每個尺度上的平移量各不相同,即離散化尺度和a 2j、b 2jk的平移引數,得到DWT。DWT理論需要[33]給出的尺度函式和小波函式兩組相關函式:
其中$\phi (t)$是標度函式,$\psi (t)$是小波函式,h[n]是低通濾波器的脈衝響應,g[n]是高通濾波器的脈衝響應。
有幾種方法可以使CWT離散化。連續訊號的dwt也可由[45]給出:
其中$\psi _{m,p}$是小波函式基,m是擴張引數,p是平移引數。
因此$\psi _{m,p}$被定義為:
離散訊號的DWT來源於CWT,定義為
其中$g(*)$是母小波,x[n]是離散訊號。母小波可以通過選擇縮放參數$a=a_0^m$和平移引數$b=nb_0a_0^m$(常數取$a_0>1$,$b_0>1$,而m和n被賦予一組正整數)來離散地放大和平移。
利用一對濾波器h[n]和g[n],即具有$g[n]=(-1)^{1-n}h[n]$性質的正交鏡濾波器(quadrature mirror filters),可以有效地實現尺度變換和小波函式。輸入訊號經過低通濾波和高通濾波,分別得到近似分量和細節分量。圖5總結了這一點。利用相同的低通濾波器和高通濾波器對各階段的近似訊號進行進一步分解,得到下一階段的近似分量和細節分量。這種分解稱為二元分解[33]。
DWT引數包含不同頻率尺度的資訊。這增強了在相應頻段[33]中獲得的語音資訊。DWT能夠按比例對輸入元素的方差進行分割槽,這是一個額外的優勢。這種劃分導致了尺度相關小波方差的觀點,它在很多方面等價於我們更熟悉的頻率相關的傅立葉功率譜[47]。經典的離散分解方案是二元的,不能滿足直接用於引數化的所有要求。DWT確實為有效的語音分析[51]提供了足夠的頻帶數。由於輸入訊號的長度是有限的,由於邊界[50]處的不連續性,使得小波係數在邊界處的變化非常大。
圖5 DWT的方框圖
7. 感知線性預測(PLP)
感知線性預測(PLP)技術將關鍵頻帶、強度-響度壓縮和等響度預強調相結合,用於語音相關資訊的提取。它植根於非線性樹皮規模,最初是打算用於語音識別任務中消除說話人相關的特徵[11]。PLP給出了一個符合平滑的短期頻譜的表示,該短期頻譜已被均衡和壓縮,類似於人類的聽覺,使其類似於MFCC。在PLP方法中,我們複製了聽覺的幾個顯著特徵,然後用自迴歸全極點模型[52]近似地表示類似聽覺的語音訊譜。PLP給出了高頻下的最小解析度,這意味著基於聽覺濾波器組的方法,同時給出了與倒譜分析相似的正交輸出。它使用線性預測來平滑光譜,因此,它的名字是感知線性預測[28]。PLP是光譜分析和線性預測分析的結合。
7.1 演算法說明,優缺點
為了計算語音的PLP特徵,計算了語音的快速傅立葉變換(FFT)和幅度的平方。這給出了功率譜估計。然後在1樹皮間隔上應用梯形濾波器,將重疊的臨界帶濾波器響應整合到功率譜中。這能有效地把高頻壓縮成窄帶。在樹皮扭曲的頻率尺度上的對稱頻域卷積允許低頻掩蓋高頻,同時平滑頻譜。頻譜隨後被預先強調,以近似人類聽覺在各種頻率下的不均勻靈敏度。對譜振幅進行壓縮,減小了譜共振的振幅變化。通過離散傅立葉反變換(IDCT)得到自相關係數。進行譜平滑,求解自迴歸方程。將自迴歸係數轉換為倒譜變數[28]。計算樹皮鱗片頻率的公式為
圖6。PLP處理器的方框圖
濾波器係數 | 濾波器的形狀 | 建模方法 | 速度的計算 | 係數型別 | 抗噪聲能力 | 對量化/附加噪聲的靈敏度 | 可靠性 | 捕獲頻率 | |
Mel倒頻譜系數(MFCC) |
Mel | 三角形 | 人類聽覺系統 | 高 | 倒頻譜 | 中等 | 中等 | 高 | 低 |
線性預測係數(LPC) |
線性預測 | 線性 | 人類聲道 | 高 | 自相關係數 | 高 | 高 | 高 | 低 |
線性預測倒譜系數(LPCC) | 線性預測 | 線性 | 人類聲道 | 中等 | 倒頻譜 | 高 | 高 | 中等 | 低&中等 |
譜線頻率(LSF) | 線性預測 | 線性 | 人類聲道 | 中等 | 頻譜 | 高 | 高 | 中等 | 低&中等 |
離散小波變換(DWT) | 低通&高通 | - | - | 高 | 小波 | 中等 | 中等 | 中等 | 低&中等 |
感知線性預測(PLP) | Bark | 梯形 | 人類聽覺系統 | 中等 | 倒頻譜&自相關 | 中等 | 中等 | 中等 | 低&中等 |
表1 特徵提取技術的比較。
其中,bark(f)為頻率(bark), f為頻率(Hz)。
PLP的識別效果優於LPC[28],因為它有效地抑制了說話人相關資訊[52],是對傳統LPC的改進。此外,它還增強了與揚聲器無關的識別效能,並且對噪聲、通道變化和麥克風[53]具有魯棒性。PLP精確重構了自迴歸噪聲分量[54]。基於PLP的前端對共振峰頻率的任何變化都很敏感。
圖6顯示了PLP處理器,顯示了獲取PLP係數所需的所有步驟。PLP對譜傾斜的敏感性較低,這與我們的研究結果一致,即對譜傾斜的語音判斷相對不敏感。此外,PLP分析依賴於整體光譜平衡(共振峰振幅)的結果。共振峰振幅易受記錄裝置、通訊通道和附加噪聲[52]等因素的影響。此外,時間-頻率解析度和有效取樣的短期表現在一個特設的方式解決了[54]。
表1顯示了上述六種特徵提取技術的比較。儘管用於研究的特徵提取演算法的選擇是獨立的,但是本表能夠根據選擇任何特徵提取演算法時的主要考慮因素來描述這些技術。這些考慮因素包括計算速度,抗噪聲性和對附加噪聲的敏感性。該表還可作為考慮在所討論的任何兩個或多個演算法之間進行選擇時的指南。
8. 結論
MFCC、LPC、LPCC、LSF、PLP和DWTare是一些用於提取語音訊號中相關資訊的特徵提取技術,用於語音識別和識別。這些技術經受住了時間的考驗,並在語音識別系統中得到了廣泛的應用。語音訊號是一種慢時變的準平穩訊號,當在5 ~ 100毫秒的足夠短的時間內觀察到它時,它的行為是相對平穩的。因此,包括MFCC、LPCC和PLP在內的短時譜分析常被用於從語音訊號中提取重要資訊。噪聲是特徵提取以及說話人識別過程中所面臨的一個嚴峻挑戰。隨後,研究人員對上述討論的技術進行了一些修改,使它們更不受噪音影響,更健壯,消耗的時間更少。這些方法也被用於聲音的識別。提取的資訊將被輸入分類器進行識別。上述特徵提取方法可以用MATLAB實現。
&n