1. 程式人生 > >深度學習與人類語言處理-語音識別(part3)

深度學習與人類語言處理-語音識別(part3)

上節回顧[深度學習與人類語言處理-語音識別(part2)](https://www.cnblogs.com/gongyanzh/p/12515971.html),這節課我們接著看seq2seq模型怎麼做語音識別 --- ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200321102026085-1587501542.png) 上節課我們知道LAS做語音識別需要看完一個完整的序列才能輸出,把我們希望語音識別模型可以在聽到聲音的時候就進行輸出,一個直觀的想法就是用單向的RNN,我們來看看CTC是怎麼做的 ### CTC 根據上面說的,線上語音識別,模型在聽到聲音的時候就需要輸出,我們看下使用RNN的基本架構 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200321102037897-389680476.png) ``` input: 長度為T的聲學特徵 Encoder:單向RNN ouput:長度為T的token,每一個輸出位置對應詞典中每個詞的概率 ``` 但是對每一個輸入的聲學特徵不總是會有對應的輸出token,每一聲學特徵所包含的資訊是非常少的,所以CTC在輸出的詞彙表中加入了一個標記$\phi$,表示什麼也沒有,詞典大小變為V+1 ``` ouput:長度為T的token,其中包括