《解析深度學習 語音識別實踐》高清中文版PDF下載
《解析深度學習 語音識別實踐》高清中文版PDF下載
高清中文版PDF,全書321頁帶目錄
下載連結:https://pan.baidu.com/s/1Ly4sdpNpcU_AwnwEVdBKLA
備用連結:https://u1593575.ctfile.com/fs/1593575-330744495
本書首次專門講述瞭如何將深度學習方法,特別是深度神經網路(DNN)技術應用於語音識別(ASR)領域。在過去的幾年中,深度神經網路技術在語音識別領域的應用取得了前所未有的成功。這使得本書成為在深度神經網路技術的發展歷程中一個重要的里程碑。作者繼其前一本書Deep Learning: Methods and Applications 之後,在語音識別技術和應用上進行了更深入鑽研,得成此作。與上一本書不同,該作並沒有對深度學習的各個應用領域都進行探討,而是將重點放在了語音識別技術及其應用上,並就此進行了更深入、更專一的討論。難能可貴的是,這本書提供了許多語音識別技術背景知識,以及深度神經網路的技術細節,比如嚴謹的數學描述和軟體實現也都包含其中。這些對語音識別領域的專家和有一定基礎的讀者來說都將是極其珍貴的資料。
本書的獨特之處還在於,它並沒有侷限於目前常應用於語音識別技術的深度神經網路上,還兼顧包含了深度學習中的生成模型,這種模型可以很自然地嵌入先驗的領域知識和問題約束。作者在背景材料中充分證實了自20 世紀90 年代早期起,語音識別領域研究者提出的深度動態生成模型(dynamic generative models)的豐富性,同時又將其與最近快速發展的深度鑑別性模型在統一的框架下進行了比較。書中以迴圈神經網路和隱動態模型為例,對這兩種截然不同的深度模型進行了全方位有見地的優劣比較。這為語音識別中的深度學習發展和其他訊號及資訊處理領域開啟了一個新的激動人心的方向。該書還滿懷歷史情懷地對四代語音識別技術進行了分析。當然,以深度學習為主要內容的第四代技術是本書所詳細闡述的,特別是DNN 和深度生成模型的無縫結,將使得知識擴充套件可以在一種最自然的方式下完成。
總的來說,該書可能成為語音識別領域工作者在第四代語音識別技術時代的重要參考書。全書不但巧妙地涵蓋了一些基本概念,使你能夠理解語音識別全貌,還對近兩年興盛起來的強大的深度學習方法進行了深入的細節介紹。讀完本書,你將可以看清前沿的語音識別是如何構建在深度神經網路技術上的,可以滿懷自信地去搭建識別能力達到甚至超越人類的語音識別系統。
Sadaoki Furui
芝加哥豐田技術研究所所長,東京理工學院教授
譯者序 iv
序 vii
前言 ix
術語縮寫 xxii
符號 xxvii
第 1 章 簡介 1
1.1 自動語音識別:更好的溝通之橋 . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 人類之間的交流 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 人機交流 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 語音識別系統的基本結構 . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 全書結構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 第一部分:傳統聲學模型 . . . . . . . . . . . . . . . . . . . . . . 6
1.3.2 第二部分:深度神經網路 . . . . . . . . . . . . . . . . . . . . . . 6
1.3.3 第三部分:語音識別中的 DNN-HMM 混合系統 . . . . . . . . . . 7
1.3.4 第四部分:深度神經網路中的表徵學習 . . . . . . . . . . . . . . 7
1.3.5 第五部分:高階的深度模型 . . . . . . . . . . . . . . . . . . . . . 7
第一部分 傳統聲學模型 9
第 2 章 混合高斯模型 11
2.1 隨機變數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 高斯分佈和混合高斯隨機變數 . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 引數估計 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 採用混合高斯分佈對語音特徵建模 . . . . . . . . . . . . . . . . . . . . . 16
第 3 章 隱馬爾可夫模型及其變體 19
3.1 介紹 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 馬爾可夫鏈 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3 序列與模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3.1 隱馬爾可夫模型的性質 . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.2 隱馬爾可夫模型的模擬 . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3.3 隱馬爾可夫模型似然度的計算 . . . . . . . . . . . . . . . . . . . . 24
3.3.4 計算似然度的高效演算法 . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3.5 前向與後向遞迴式的證明 . . . . . . . . . . . . . . . . . . . . . . 27
3.4 期望最大化演算法及其在學習 HMM 引數中的應用 . . . . . . . . . . . . . 28
3.4.1 期望最大化演算法介紹 . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.4.2 使用 EM 演算法來學習 HMM 引數——Baum-Welch 演算法 . . . . . . 30
3.5 用於解碼 HMM 狀態序列的維特比演算法 . . . . . . . . . . . . . . . . . . . 34
3.5.1 動態規劃和維特比演算法 . . . . . . . . . . . . . . . . . . . . . . . . 34
3.5.2 用於解碼 HMM 狀態的動態規劃演算法 . . . . . . . . . . . . . . . . 35
3.6 隱馬爾可夫模型和生成語音識別模型的變體 . . . . . . . . . . . . . . . . 37
3.6.1 用於語音識別的 GMM-HMM 模型 . . . . . . . . . . . . . . . . . 38
3.6.2 基於軌跡和隱藏動態模型的語音建模和識別 . . . . . . . . . . . . 39
3.6.3 使用生成模型 HMM 及其變體解決語音識別問題 . . . . . . . . . 40
第二部分 深度神經網路 43
第 4 章 深度神經網路 45
4.1 深度神經網路框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2 使用誤差反向傳播來進行引數訓練 . . . . . . . . . . . . . . . . . . . . . 48
4.2.1 訓練準則 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2.2 訓練演算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.3 實際應用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3.1 資料預處理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.3.2 模型初始化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.3 權重衰減 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.4 丟棄法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3.5 批量塊大小的選擇 . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3.6 取樣隨機化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.3.7 慣性系數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3.8 學習率和停止準則 . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.3.9 網路結構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.3.10 可復現性與可重啟性 . . . . . . . . . . . . . . . . . . . . . . . . . 62
第 5 章 高階模型初始化技術 65
5.1 受限玻爾茲曼機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.1.1 受限玻爾茲曼機的屬性 . . . . . . . . . . . . . . . . . . . . . . . . 67
5.1.2 受限玻爾茲曼機引數學習 . . . . . . . . . . . . . . . . . . . . . . 70
5.2 深度置信網路預訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3 降噪自動編碼器預訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.4 鑑別性預訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.5 混合預訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.6 採用丟棄法的預訓練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
第三部分 語音識別中的深度神經網路–隱馬爾可夫混合模型 81
第 6 章 深度神經網路–隱馬爾可夫模型混合系統 83
6