Connectionist Temporal Classification(CTC)、音識別模型小型綜述和一個簡易的語音識別模型的tensorflow實現

CTC是一種端到端的語音識別技術，他避免了需要字或者音素級別的標註，只需要句子級別的標註就可以進行訓練，感覺非常巧妙，也很符合神經網路浪潮人們的習慣。特別是LSTM+CTC相較於之前的DNN+HMM，LSTM能夠更好的捕捉輸入中的重要的點（LSTM隨著狀態數目增加引數呈線性增加，而HMM會平方增加），CTC打破了隱馬爾科夫的假設，把整個模型從靜態分類變成了序列分類。

語音識別的評價指標

在語音識別中，在資料集 $S$

S

上評價模型

h

的好壞一般用標籤錯誤率（Label Error Rate）:

LER(h,S)=\frac{1}{|S|}\sum_{(x,z)\in S}\frac{ED(h(x),z)}{|z|}

，

ED(p,q)

表示

p

和

q

兩個序列的編輯距離。

語音識別模型

在語音識別中，提取語音訊號的MFCC特徵 $x$ ，經過神經網路或者GMM處理後經過一個softmax層得到一個每個音素的後驗概率 $y$ ， $y$ 的類別有 $|L|+1$ 種， $L$ 是可能出現的字元，加1為建個符。定義 $B$ 為簡單的壓縮變換，把路徑 $\pi$ （路徑就是一種音素出現的路線）中相鄰相同的音素合併，空音素去掉，再特徵 $x$ 下定序列 $l$ 出現的條件概率為：

$p(l|x)=\sum_{\pi=\in B^{-1}(l)}p(\pi|x)$

前向後向演算法（Forward-Backward Algorithm）

定義符號 $l_{p:q}$ 表示符號序列 $KaTeX parse error: Expected '}', got 'EOF' at end of input: …..l_{q-1},l_{q}$ ，容易得知，要想使得路徑 $B(\pi')$ 滿足一定的 $l$ ， $\pi$ 路線上的狀態跳轉需要滿組 $l'$ 的先後順序，不同的符號之間可以插入blank。

定義前向變數 $\alpha(t,u)$ ： $\alpha_t(t,u)=\sum_{\pi\in N^T,B(\pi_{1:t})=1_{1:u}}\prod_{t'=1}^ty_{\pi_{t'}}^{t'}$

$\alpha(t,s)$ 可以遞推的用 $\alpha(t-1,s)，\alpha(t-1,s-1)$ 計算。

為了方便起見，我們在 $l$ 相鄰標籤之間插入了空白（blank），在開始和末尾也加入了空白，這樣我們用 $l'$ 表示這個新的標記， $l'$ 的長度就為 $2|l|+1$ 。在計算 $l'$ 字首的概率中，我們允許空白和非空白標籤之間轉移，那麼我麼有動態規劃的初始條件：

$\alpha(1,1)=y_b^1$

$\alpha(1,2)=y_{l_1}^1$

$\alpha(1,u)=0,u>2$

$\alpha(t,0)=0$

$\alpha(t,u)=0,u<U'-2(T-t)-1$

$U'$ 表示序列 $2|l_{1:u}|+1$ 。

遞迴算式：

$KaTeX parse error: Double subscript at position 19: …pha(t,u)=y_{t'}_̲{l'_u}^t\sum_{i…$

$KaTeX parse error: Expected group after '\right' at end of input: …nd{array}\right$

簡單地說就是現在如果狀態是blank，那麼上一個狀態有可能是blank或者是上一個字元，如果現在的狀態是字元，那他上一個狀態可能是相同的字元，可能是blank，也可能是上一個非blank字元，但如果現在的字元與上一個非空字元相同，那意味著現在的狀態不能直接從上一個非空字元跳過來，必須隔一個blank，所以只能從blank和相同的字元跳過來。

相似的定義後向變數 $\beta(t,u)$ ： $α_{t} (t, s) = \sum_{π \in N^{T}, B (π_{t : T}) = 1_{u : U}} \prod_{t^{'} = t + 1}^{T} y_{π_{t^{'}}}$

Connectionist Temporal Classification(CTC)、音識別模型小型綜述和一個簡易的語音識別模型的tensorflow實現

語音識別的評價指標

語音識別模型

前向後向演算法（Forward-Backward Algorithm）

Connectionist Temporal Classification(CTC)、音識別模型小型綜述和一個簡易的語音識別模型的tensorflow實現

CTC（Connectionist Temporal Classification）論文筆記

CTC 白話CTC(connectionist temporal classification)演算法講解

深度學習基礎--loss與啟用函式--CTC（Connectionist temporal classification）的loss

CTC（Connectionist Temporal Classification）介紹

教程：Connectionist Temporal Classification詳解補充

論文筆記：Connectionist Temporal Classification: Labelling Unsegmented Sequence

LVS-DR負載均衡模型的RIP和VIP在不同網絡的實現

【Windows語音識別】基於SAPI v5.1的語音識別程式配置

Qt：使用百度語音識別REST API，做全平臺語音識別

決策樹模型(Decision TreeModel)和樸素貝葉斯模型（NaiveBayesianModel，NBC）

office文檔、圖片、音/視頻格式轉換工具

94、tensorflow實現語音識別0,1,2,3,4,5,6,7,8,9

愛奇藝、騰訊、優酷、搜狐、芒果、樂視、PPTV、音悅臺等VIP視頻免費觀看

運用PDO存儲將圖片、音頻文件存入數據庫

iOS：百度長語音識別具體的封裝：識別、播放、進度刷新

Html5視頻、音頻、API控件---第二天

Android集成訊飛語音、百度語音、阿裏語音識別

重磅！MaxCompute助力阿裏開源自研語音識別模型DFSMN，準確率高達96.04%

使用L2正則化和平均滑動模型的LeNet-5MNIST手寫數字識別模型

Connectionist Temporal Classification(CTC)、音識別模型小型綜述和一個簡易的語音識別模型的tensorflow實現

語音識別的評價指標

語音識別模型

前向後向演算法（Forward-Backward Algorithm）

相關推薦