端到端語音識別系統
阿新 • • 發佈:2019-02-04
本文主要觀點來自於 google論文。
Towards End-to-EndSpeech RecognitionUsing Deep Neural Networks。
問題背景:
傳統語音識別系統需要經過提特徵,聲學建模(state-phoneme-triphone),語言建模系列過程,其中聲學建模需要對上下文相關的音素模型進行狀態聚類,對每一幀特徵需要做對齊。
端到端系統主要提出了下面的問題:
1. 特徵表示:
神經網路既然可以用來做特徵學習,是否可以直接從原始音訊訊號中直接提取特徵,不需要手工的提取log-mel特徵?
2. 聲學建模:
DNN,CNN 和 LSTM通常用來進行聲學建模,通過結合這些結構是否可以更好建模?
3. 是否可以減少對現有CD-state(通過HMM訓練和聚類得到)和aligment的依賴?例如利用CTC
(1))
LSTM的時序建模直接在特徵做xt, 對xt進行高維建模可以減少譜變化,能更好的學習時序結構,卷積網路能很好的減少譜差異性,將特徵對映到一個說話人空間。
考慮到LSTM侷限性,CLDNN通過結合三種網路結構,來解決問題:
一是把特徵輸入到CNN層,降低譜差異性,二是把CNN的輸出輸入到LSTM建模時序特徵,三是把LSTM的輸出作為DNN的輸入,減少LSTM隱層的變化,使得特徵轉化到更可分的空間。
CLDNN的處理過程:
1. mel特徵 40dim
2. 頻域的卷積fconv: ICASSP 2013
3. LSTM層: 2到3層,每層832個記憶元
4. DNN層: 一個relu layer層(1024),一個線性層(512)
實驗結果證明了在filter-bank的特徵上,通過結合三種不同結構的神經網路,比單一網路結構有提升