深度學習與人類語言處理-語音識別(part3)

阿新 • • 發佈：2020-03-21

上節回顧[深度學習與人類語言處理-語音識別(part2)](https://www.cnblogs.com/gongyanzh/p/12515971.html)，這節課我們接著看seq2seq模型怎麼做語音識別 --- ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200321102026085-1587501542.png) 上節課我們知道LAS做語音識別需要看完一個完整的序列才能輸出，把我們希望語音識別模型可以在聽到聲音的時候就進行輸出，一個直觀的想法就是用單向的RNN，我們來看看CTC是怎麼做的 ### CTC 根據上面說的，線上語音識別，模型在聽到聲音的時候就需要輸出，我們看下使用RNN的基本架構 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200321102037897-389680476.png) ``` input: 長度為T的聲學特徵 Encoder：單向RNN ouput：長度為T的token,每一個輸出位置對應詞典中每個詞的概率 ``` 但是對每一個輸入的聲學特徵不總是會有對應的輸出token，每一聲學特徵所包含的資訊是非常少的，所以CTC在輸出的詞彙表中加入了一個標記$\phi$，表示什麼也沒有，詞典大小變為V+1 ``` ouput：長度為T的token,其中包括

深度學習與人類語言處理-語音識別(part3)

深度學習與人類語言處理-語音識別(part3)

深度學習與人類語言處理-語音識別(part1)

深度學習與人類語言處理-語音識別(part2)

李巨集毅深度學習與人類語言處理-introduction

深度學習與人類語言處理-語言模型

深度學習與自然語言處理(7)_斯坦福cs224d 語言模型，RNN，LSTM與GRU

深度學習與自然語言處理

深度學習與自然語言處理(8)_斯坦福cs224d RNN，MV-RNN與RNTN

深度學習與自然語言處理(3)_斯坦福cs224d Lecture 3

深度學習與自然語言處理（一）

深度學習與自然語言處理（三）——深度學習運用到自然語言處理領域的成功案例

車萬翔《基於深度學習的自然語言處理》中英文PDF+塗銘《Python自然語言處理實戰核心技術與算法》PDF及代碼

用深度學習解決自然語言處理中的7大問題，文字分類、語言建模、機器翻譯

如何用深度學習做自然語言處理？這裡有份最佳實踐清單

斯坦福cs224d（深度學習在自然語言處理上的應用）Lecture 2 note2

深度學習和自然語言處理的應用和脈絡1-基礎

深度學習在自然語言處理中的應用（一）

深度學習和自然語言處理中的attention和memory機制

深度學習在自然語言處理中的應用綜述

深度學習在自然語言處理中的應用: 集智俱樂部活動筆記

深度學習與人類語言處理-語音識別(part3)

相關推薦