1. 程式人生 > >端到端語音識別系統

端到端語音識別系統

本文主要觀點來自於 google論文。

Towards End-to-EndSpeech RecognitionUsing Deep Neural Networks。
問題背景:

傳統語音識別系統需要經過提特徵,聲學建模(state-phoneme-triphone),語言建模系列過程,其中聲學建模需要對上下文相關的音素模型進行狀態聚類,對每一幀特徵需要做對齊。

端到端系統主要提出了下面的問題:

1. 特徵表示:

     神經網路既然可以用來做特徵學習,是否可以直接從原始音訊訊號中直接提取特徵,不需要手工的提取log-mel特徵?

2. 聲學建模: 

     DNN,CNN 和 LSTM通常用來進行聲學建模,通過結合這些結構是否可以更好建模?

3. 是否可以減少對現有CD-state(通過HMM訓練和聚類得到)和aligment的依賴?例如利用CTC

(1))

LSTM的時序建模直接在特徵做xt, 對xt進行高維建模可以減少譜變化,能更好的學習時序結構,卷積網路能很好的減少譜差異性,將特徵對映到一個說話人空間。

考慮到LSTM侷限性,CLDNN通過結合三種網路結構,來解決問題:

一是把特徵輸入到CNN層,降低譜差異性,二是把CNN的輸出輸入到LSTM建模時序特徵,三是把LSTM的輸出作為DNN的輸入,減少LSTM隱層的變化,使得特徵轉化到更可分的空間。

CLDNN的處理過程:

      

1.  mel特徵 40dim

2. 頻域的卷積fconv: ICASSP 2013

3.  LSTM層: 2到3層,每層832個記憶元

4.  DNN層: 一個relu layer層(1024),一個線性層(512)

實驗結果證明了在filter-bank的特徵上,通過結合三種不同結構的神經網路,比單一網路結構有提升

Raw-waveform CLDNNs

上一節,討論了網路結構組合的效果,下面我們看看,能否不提譜特徵,而直接利用神經網路從音訊流中學出特徵來呢? 注意上面兩圖的輸入,將mel譜特徵改為音訊取樣點。 前者的輸入是40dim的譜特徵,後面通過時域卷積,產生一個P dim的幀,因此後者有兩個卷積層。