Kaldi學習筆記（四）——thchs30中文線上識別

阿新 • • 發佈：2018-12-27

在前面的筆記中，我們已經訓練出thchs30模型。

這篇文章主要介紹如何用訓練好的模型識別我們自己的語音。

一、安裝portaudio

首先我們cd到tools下面，執行：./install_portaudio.sh

然後在cd到src下面，執行：make ext

二、建立相關檔案

從voxforge把online_demo拷貝到thchs30下，和s5同級，online_demo建online-data和work兩個資料夾。online-data下建audio和models，audio放要識別的wav，models建tri1，講s5下/exp/下的tri1下的final.mdl和35.mdl拷貝過去，把s5下的exp下的tri1下的graph_word裡面的words.txt和HCLG.fst也拷過去。（使用tri1訓練出來的模型）

其中，final.mdl是訓練出來的模型，words.txt是字典，和HCLG.fst是有限狀態機。

三、修改指令碼

開啟online_demo的run.sh
a)將下面這段註釋掉：（這段是voxforge例子中下載現網的測試語料和識別模型的。我們測試語料自己準備，模型就是tri1了）

if [ ! -s ${data_file}.tar.bz2 ]; then
echo "Downloading test models and data ..."
wget -T 10 -t 3 $data_url;

if [ ! -s ${data_file}.tar.bz2 ]; then
echo "Download of $data_file has failed!"
exit 1
fi
fi

b) 然後再找到如下這句，將其路徑改成tri1

# Change this to "tri2a" if you like to test using a ML-trained model
ac_model_type=tri2b_mmi
ac_model_type=tri1

c）把識別麥克風語音的程式碼修改：

online-gmm-decode-faster --rt-min=0.5 --rt-max=0.7 --max-active=4000 \
--beam=12.0 --acoustic-scale=0.0769 $ac_model/final.mdl $ac_model/HCLG.fst \
$ac_model/words.txt '1:2:3:4:5' $trans_matrix;;

#online-gmm-decode-faster --rt-min=0.5 --rt-max=0.7 --max-active=4000 \
#--beam=12.0 --acoustic-scale=0.0769 $ac_model/model $ac_model/HCLG.fst \
#$ac_model/words.txt '1:2:3:4:5' $trans_matrix;;

d）把識別已經錄好的語音程式碼修改：

online-wav-gmm-decode-faster --verbose=1 --rt-min=0.8 --rt-max=0.85\
--max-active=4000 --beam=12.0 --acoustic-scale=0.0769 \
scp:$decode_dir/input.scp $ac_model/final.mdl $ac_model/HCLG.fst \
$ac_model/words.txt '1:2:3:4:5' ark,t:$decode_dir/trans.txt \

ark,t:$decode_dir/ali.txt $trans_matrix;;

#online-wav-gmm-decode-faster --verbose=1 --rt-min=0.8 --rt-max=0.85\
# --max-active=4000 --beam=12.0 --acoustic-scale=0.0769 \
#scp:$decode_dir/input.scp $ac_model/model $ac_model/HCLG.fst \
#$ac_model/words.txt '1:2:3:4:5' ark,t:$decode_dir/trans.txt \
#ark,t:$decode_dir/ali.txt $trans_matrix;;

4. 線上識別

我們把自己要識別的語音放到/online-data/audio裡，cd到online_demo下面，執行./run.sh，就開始識別回放了。

可以看到識別效果非常差。

如果想要識別麥克風的語音，可以執行：./run.sh --test-mode live，也是同樣的效果

5. tri2,tri3,tri4線上識別

執行tri2(tri3,tri4同理)：把s5下的exp下的tri2b下的12.mat考到models的tri2下，把final.mat考過來（好像是轉移矩陣），再拷貝其他相應的檔案（同tri1），所以tri2目錄下包括如下檔案：

在第4步的基礎上修改如下內容：

1. 修改ac_model_type

ac_model_type=tri2

2. 修改trans_matrix

ac_model=${data_file}/models/$ac_model_type
trans_matrix="$ac_model/12.mat"
audio=${data_file}/audio

3. 增加--left-context=3 --right-context=3

online-gmm-decode-faster --rt-min=0.5 --rt-max=0.7 --max-active=4000 \
--beam=12.0 --acoustic-scale=0.0769 --left-context=3 right-context=3 $ac_model/final.mdl $ac_model/HCLG.fst \
$ac_model/words.txt '1:2:3:4:5' $trans_matrix;;

online-wav-gmm-decode-faster --verbose=1 --rt-min=0.8 --rt-max=0.85\
--max-active=4000 --beam=12.0 --acoustic-scale=0.0769 --left-context=3 --right-context=3\
scp:$decode_dir/input.scp $ac_model/final.mdl $ac_model/HCLG.fst \
$ac_model/words.txt '1:2:3:4:5' ark,t:$decode_dir/trans.txt \
ark,t:$decode_dir/ali.txt $trans_matrix;;

最後執行./run.sh

Kaldi學習筆記（四）——thchs30中文線上識別

在前面的筆記中，我們已經訓練出thchs30模型。這篇文章主要介紹如何用訓練好的模型識別我們自己的語音。一、安裝portaudio首先我們cd到tools下面，執行：./install_portaudio.sh然後在cd到src下面，執行：make ext二、建立相關檔案從v

Kaldi學習筆記（三）——執行thchs30（清華大學中文語料庫）

1.train_mono.sh 用來訓練單音子隱馬爾科夫模型，一共進行40次迭代，每兩次迭代進行一次對齊操作gmm-init-mono->compile-train-graphs->align-equal-compiled->gmm-est->{gmm-align-compiled-&

Cocos2d-x學習筆記（四）布景層的加入移除

dcl from position 顏色顯示地圖 idt col 分享學習布景層類也就是CCLayer類，每一個遊戲場景中都能夠有非常多層，每一層負責各自的任務。顯示地圖、顯示人物等。同一時候層還是一個容器，能夠放入文本、圖片和菜單。構成遊戲中一個個UI。這次

機器學習筆記（四）機器學習可行性分析

資料表示 image 隨機訓練樣本 -s mage 例如 lin 從大量數據中抽取出一些樣本，例如，從大量彈珠中隨機抽取出一些樣本，總的樣本中橘色彈珠的比例為，抽取出的樣本中橘色彈珠的比例為，這兩個比例的值相差很大的幾率很小，數學公式表示為：用抽取到的樣本作為訓練

Python_sklearn機器學習庫學習筆記（四）decision_tree（決策樹）

min n) 空間 strong output epo from 標簽 ict # 決策樹 import pandas as pd from sklearn.tree import DecisionTreeClassifier from sklearn.

Python學習筆記（四）列表生成式_生成器

rec triangle 小寫 ont 無限 end clas 普通執行過程筆記摘抄來自：https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001431

Unity3D之Mecanim動畫系統學習筆記（四）：Animation State

大致面板輸入 jpg any 動畫播放速度 nsf 顯示動畫的設置我們先看看Animation Clip的一些設置： Loop time：動畫是否循環播放。下面出現了3個大致一樣的選項： Root Transform Rotation：表示為播放動畫

.net core 2.0學習筆記（四）：遷移.net framework 工程到.net core

編譯 its evel hashtable ref 學習筆記 inline null 創建在遷移.net core的過程中，第一步就是要把.net framework 工程的目標框架改為.net core2.0，但是官網卻沒有提供轉換工具，需要我們自己動手完成了

ES6學習筆記（四）—— async 函數

ons fst cte code span pre getname 普通聲明 await 是 async wait 的簡寫, 是 generator 函數的語法糖。 async 函數的特點： async 聲明一個方法是異步的，await 則等待這個異步方法執行的完

Hibernate學習筆記（四） --- 映射基本數據類型的List集合

varchar prim drop n) 進行 lis auth pos 方案集合按其內元素的數據類型分為兩種：基本數據類型集合及復雜對象類型集合，Hibernate對於兩類集合提供不同的映射方式。（在類上以@Embeddable註解的復雜對象數據類型處理方式同基本數據類

java學習筆記（四）：import語法

employee sign cnblogs java 調用變量賦值 temp 職位求職 Import 語法是給編譯器尋找特定類的適當位置的一種方法。創建一個Employee 類，包括四個實體變量姓名（name），年齡（age），職位（designation）和薪水（s

Cesium學習筆記（四）Camera

ttr can str efault 簡單的 list 事件處理 get provider http://blog.csdn.net/HobHunter/article/details/74909641 Cesium 相機控制場景中的視野。操作相機的方法有很多，如

python學習筆記（四）-數據類型

rand 兩個 urn 浪費 line 平年 randint .com .cn 0. 在 Python 中的數據類型詳解 http://www.cnblogs.com/scios/p/8026576.html 1. 為什麽布爾類型(bool)的 True 和 False 分

Nodejs學習筆記（四）-----Buffer

pretty 成員保存 n) tin 設置 amp 個數普通 Node.js Buffer(緩沖區) JavaScript 語言自身只有字符串數據類型，沒有二進制數據類型。但在處理像TCP流或文件流時，必須使用到二進制數據。因此在 Node.js中，定義了一個 Buf

Elasticsearch學習筆記（四）ElasticSearch分布式機制

clas cse 負載均衡丟失數據不可分布式復雜發生一、Elasticsearch對復雜分布式機制透明的隱藏特性 1、分片機制：（1）index包含多個shard，每個shard都是一個最小工作單元，承載部分數據，lucen

DeepLearning.ai學習筆記（四）卷積神經網絡 -- week1 卷積神經網絡基礎知識介紹

除了 lock 還需要情況好處計算公式 max 位置網絡基礎一、計算機視覺如圖示，之前課程中介紹的都是64* 64 3的圖像，而一旦圖像質量增加，例如變成1000 1000 * 3的時候那麽此時的神經網絡的計算量會巨大，顯然這不現實。所以需要引入其他的方法來

python學習筆記（四）字符串及字符串操作

默認小寫字母是不是 swap git 查找字符英文去掉 title 字符串　　字符串可以存任意類型的字符串，比如名字，一句話等等。字符串還有很多內置方法，對字符串進行操作，常用的方法如下： 1 name1=‘hello world‘ 2 print(nam

day3-python學習筆記（四）

end tar upper date update size upd sdi reat 字符串方法 #字符串這些方法都不會改變原來字符串的值name = ‘beSTtest‘# new_name = name.strip()#默認是去掉空格和換行符# new_name =

DeepLearning.ai學習筆記（四）卷積神經網絡 -- week2深度卷積神經網絡實例探究

過濾 common 經典上一個問題 inline 最壞情況 ali method 一、為什麽要進行實例探究？通過他人的實例可以更好的理解如何構建卷積神經網絡，本周課程主要會介紹如下網絡 LeNet-5 AlexNet VGG ResNet (有152層) Incep

《Qt5 開發與實例（第三版）》學習筆記（四）

常用斷言 max swap 正則表達 4.2 debug 實例筆記 1 //2.4 算法及正則表達式 2 //2.4.1 Qt5常用算法 3 double c=qAbs(a);//返回絕對值 4 double max=qMax(b,c);//返回最大值 5