1. 程式人生 > >語音識別的技術

語音識別的技術

首先要進行端點檢測(VAD),然後對聲音進行分析。需要對聲音分幀,也就是把聲音切成一小段一小段的,每一小段稱為一幀,分幀時要使用移動窗函式來實現,幀與幀之間一般是有交疊,如下圖所示,每幀長度是25毫秒,每兩幀之間有25-10=15毫秒的交疊,稱為以幀長25ms,幀移10ms的分幀。

分幀後,語音就變成了許多小段,在波形的時域上沒有任何描述能力,因此必須將波形做變換。常見的一種變換就是提取MFCC特徵。根據人耳的生理特性,把一幀波形變成一個多維向量,可以簡單的理解為這個向量包含了這幀語音的內容資訊。這叫做聲學特徵提取。

至此,聲音就成了一個12行(假設聲學特徵是12維)、N列的一個矩陣,稱之為觀察序列,這裡N為總幀數。觀察序列如下圖所示,圖中每一幀都用一個12維的向量表示,色塊的顏色標識向量值的大小。