[轉]Kaldi語音識別

阿新 • • 發佈：2017-09-18

位置系統 tex 文件夾設備要去 ogl 詞典 -s

轉：http://ftli.farbox.com/post/kaldizhong-wen-shi-bie

Kaldi語音識別
1.聲學建模單元的選擇
1.1對聲學建模單元加入位置信息
2.輸入特征
3.區分性技術
4.多音字如何處理？
5.Noise Robust ASR 
6.Deep Learning[DNN/CNN替換GMM]
7.在手機等資源受限設備
author:Feiteng
Email:[email protected]
date:2014/08/10

Kaldi訓練腳本針對不同的語料庫，需要重寫數據準備部分，腳本一般放在conf、local文件夾裏；

conf放置一些配置文件，如提取mfcc、filterbank等特征參數 
的配置，解碼時的一些參數配置
local一般用來放置處理語料庫的數據準備部分腳本 > 中文識別，應該準備：發音詞典、音頻文件對應的文本內容和(文件標註)一個基本可用的語言模型(解碼時使用) 
註：一般情況下，在模型訓練階段LM對ASR的參數訓練沒有影響，即不影響GMM、HMM、DNN/CNN的參數值；使用區分度模型訓練會有影響[生成Lattice候選]
1.聲學建模單元的選擇

全音節[是否帶聲調]、聲韻母[是否帶聲調]、音素？ 
> 帶聲調的聲韻母作為建模單元是比較常見的中文識別選擇，也有一些文章指出，使用更細化的phones 集可以有更多的性能提升：
中文連續語音識別系統音素建模單元集的構建——包葉波等 
基於發音特征的漢語普通話語音聲學建模——顏永紅等 
基於發音特征的漢語聲調建模方法及其在漢語語音識別中的應用——劉文舉等 
 
1.1對聲學建模單元加入位置信息

For instance, we‘d have:
AA AA_B AA_E AA_I AA_S
for (B)egin, (E)nd, (I)nternal and (S)ingleton
and in the case of silence
SIL SIL SIL_B SIL_E SIL_I SIL_S
仍然要註意，中英文的差別，中文聲學建模單元可能不含有全部的_B _E _I _S

2.輸入特征

MFCC、fbank、PLP

使用對角協方差矩陣的GMM由於忽略了不同特征維度的相關性，MFCC更適合用來做特征
DNN/CNN可以對更好的利用這些相關性，把MFCC的DCT省略，使用fbank特征 
可以更多地降低WER
tips: Deep Learning更多是實驗性質，解釋多半是迎合實驗現象 

甚至直接從語音波形圖上直接提取特征 

IBM-Tara N. Sainath-2014-IMPROVEMENTS TO FILTERBANK AND DELTA LEARNING 

Tara N. Sainath發表了一系列的CNN on Speech的文章，我覺得質量是CNN on Speech的文章中最好的

中文是帶聲調的語言，聲調不同，差別很多，因此可以在特征上加入聲調信息

2014-A DNN-BASED ACOUSTIC MODELING OF TONAL LANGUAGE AND ITS APPLICATION TO MANDARIN PRONUNCIATION TRAINING 

2014-AUTOMATIC PHONETIC SEGMENTATION IN MANDARIN CHINESE BOUNDARY MODELS, GLOTTAL FEATURES AND TONE

Noise Robust feature？

LiDeng2013-An Overview of Noise-Robust Automatic Speech Recognition

3.區分性技術

區別特征提取：LDA、MLLR、SAT、fbMMI
區分度模型訓練：MMI、MPE、MCE、smbr
經驗：並不是所有區分性技術都有正面效果
4.多音字如何處理？

假設我們的文本標註如下：

spk001 我們 的 作品 為 第一名
發音詞典如下：
的 d e0
的 d e4
的 d i2
為 w ei2
為 w ei4

的和為都是多音字，那麽在模型訓練階段如何根據標註spk001聯合phones的HMM模型呢？
有兩種解決策略：

①唯一化處理：更改文本標註和發音詞典，將多音字唯一化標註 

如：

的1 d e0 

的2 d e4 

為1 w ei2 

為2 w ei4 

spk001 我們 的1 作品 為1 第一名 

這樣做的話，我們在解碼階段需要去除發音詞典中的標識1、2，從而不會在解碼結果中引入多余的1、2

②自動處理：Kaldi可以將多種選擇(多音)編入spk001的fst，在Align階段根據音頻特征選擇phone的標號
這種處理可能不夠精確，ML本來就不能100%準確，這點讓人悲傷； 

不過可能語料庫的發音人並不能對所有的多音字都發正確的音，

如果使用①需要校對每一個含有多音字的音頻發音，人工大大的；

英語單詞也存在多音字，不過相比中文少得多，可參考：馮誌偉-漢語拼音音節的歧義指數

5.Noise Robust ASR

從特征提取、模型層面把噪聲考慮進去 可參考：
綜述文章：LiDeng2013-An Overview of Noise-Robust Automatic Speech Recognition
6.Deep Learning[DNN/CNN替換GMM]

這一步“需要”先訓練一個HMM+GMM，然後獲得wav文件的alignment，即每一幀對應的phone->state
這樣我們就為DNN準備好了 train.data train.label
註：我們可以使用為GMM提取的特征，也可以重新從wav提取特征，需要註意的是窗口大小、幀移要與alignment匹配；
通常提取fbank特征作為DNN的輸入，而且組合當前幀左右相鄰的n幀成 2n+1幀特征作為輸入

Dropout、ReLU 
關於Dropout我在TIMIT做了不下20組實驗，才看到WER的下降，更絕大多數文章的描述並不相同； 
ReLU做了幾組實驗，沒看到更低的WER，有待繼續。
CNN 
根據實驗CNN相比DNN會有5%-10%的WER下降，卷積層不同的實現[FFT vs 矩陣乘積]性能會有差異，這一層計算量略大 
Tara N. Sainath發表了一系列的CNN on Speech的文章，我覺得質量是CNN on Speech的文章中最好的
直接HMM+DNN混合訓練
參考：2014-google-GMM-FREE DNN TRAINING
其他
SVD低秩逼近W矩陣
7.在手機等資源受限設備

參考 雷欣 的兩篇文章，針對數值存儲、模型等做優化，在資源暫用與識別率下降方面做權衡

1.2013-Accurate and Compact Large Vocabulary Speech Recognition on Mobile Devices
2.FINE CONTEXT, LOW-RANK, SOFTPLUS DEEP NEURAL NETWORKS FOR MOBILE SPEECH RECOGNITION

[轉]Kaldi語音識別

位置系統 tex 文件夾設備要去 ogl 詞典 -s 轉：http://ftli.farbox.com/post/kaldizhong-wen-shi-bie Kaldi語音識別 1.聲學建模單元的選擇 1.1對聲學建模單元加入位置信息 2.輸入特征 3.區分性

Kaldi語音識別工具執行TIMIT資料庫例項

Kaldi安裝後執行TIMIT例子： 1. 對於Kaldi-master版本中，/egs/timit/s5下面的關鍵三個檔案cmd.sh，path.sh，run.sh,執行前只需要修改將run.sh中的timit=/home/james/TIMIT路徑，將自己複製到本地的TIMIT路徑寫好（進入後直

KALDI語音識別工具包執行TIMIT資料庫例項

TIMIT資料庫介紹： TIMIT資料庫由630個話者組成，每個人講10句，美式英語的8種主要方言。 TIMIT S5例項：首先，將TIMIT.ISO中的TIMIT複製到主資料夾。 1.進

iOS中語音識別功能／語音轉文字教程具體解釋韓俊強的博客

rdd tex forkey dex errortype map pin ins prop 原文地址：http://blog.csdn.net/qq_31810357/article/details/51111702前言：近期研究了一下語音識別，從百度語音識別到訊飛語音

[轉]kaldi中的在線識別----Online Recognizers

online images -o nbsp rec 學習討論 kaldi .net 轉自： http://blog.csdn.net/wbgxx333/article/details/24932533 本文是kaldi學習聯盟中@冒頓翻譯的，下面是@冒頓的翻譯結果，在這裏

[轉]Kaldi命令詞識別

文件目錄入參 arr peak 此外 logs then run tar 轉自： http://www.jianshu.com/p/5b19605792ab?utm_campaign=maleskine&utm_content=note&utm_mediu

小程序語音紅包中遇到的語音識別silk轉wav格式如何在線轉或者mp3轉wav格式

小程序微信小程序在線如果 phpe 錄音紅包什麽解決公司在開發一個小程序語音紅包，現在遇到的問題就是通過微信的小程序文檔接口拿到的錄音文件要麽是silk格式的，要麽是mp3格式的但是呢，如果要調用百度的語音接口，又必須是wav格式的。也就是說通過

微信小程序語音識別開發過程記錄微信小程序silk轉mp3 silk轉wav 以及ffmpeg使用

結果 asr 需要轉碼折騰發微信語音識別 ocs wav 說說最近在開發微信小程序語音識別遇到的問題吧最先使用微信小程序錄音控件可以拿到silk格式，後來微信官方又支持mp3格式了但是我們拿到這些格式以後，都還不能直接使用，做語音識別，因為目前百度的語

ROS kinetic語音識別（轉）

line 目錄路徑 inf AC ESS data html amd 1.安裝依賴 1.1安裝ros-kinetic-audio-common 1 sudo apt-get install ros-kinetic-audio-common

Android語音轉文字一識別語音

訊飛AndroidSDK文件：https://doc.xfyun.cn/msc_android/%E9%A2%84%E5%A4%87%E5%B7%A5%E4%BD%9C.html 訊飛語音SDK不支援android平臺語音轉寫的功能（只支援java平臺，當然android可以通過訪問後臺去請求）

kaldi中文語音識別thchs30模型訓練程式碼功能和配置引數解讀

Monophone 單音素模型的訓練 # Flat start and monophone training, with delta-delta features. # This script applies ceps

kaldi中文語音識別(1)——thchs30

這3篇部落格，詳細總結和記錄了我編譯安裝kaldi和兩種用kaldi進行中文語音識別的過程，包括如何kaldi的簡單介紹、環境的配置、相關模型的訓練、匯入，算是自己近期學習的一個總結，也希望可以幫助到需要的人~~~ 本篇部落格主要記錄了我編譯安裝kaldi的過程

語音識別學習記錄 [kaldi中的openfst]

在Kaldi tutorial: Overview of the distribution中介紹了一個使用openfst的例子。先來介紹一下這個例子，再來說明FST(finite-state transducers,有限狀態機)如何應用到語音識別中。首先有三個檔案，tex

語音識別kaldi

轉記一篇關於語音識別的入門教程，https://www.zhihu.com/question/65516424 kaldi是什麼 kaldi是使用c++寫的語音識別的工具，apache 授予了v2.0的證書（果真應驗，apache旗下無弱將）。kaldi旨在供語音

kaldi中文語音識別_基於thchs30(1)

kaldi是語音識別的開源軟體包，網址http://www.kaldi-asr.org/ Kaldi's code lives at https://github.com/kaldi-asr/kaldi. To checkout (i.e. clone in the git

IOS Android 和 Unity上基於kaldi的離線語音識別系統

在一些教育醫療產業中，很多的詞彙都非常專業，並不是一般的語音識別系統所能提供服務的，這時就需要我們自己構建一個離線的可以在手機或者平板上執行的語音識別系統，我選擇的是Kaldi，因為Kaldi的識別能力要比上一代的CMU SPHINX高很多， WER（錯誤識別率）

從零開始語音識別--基於Kaldi工具

下載安裝kaldi：$ git clone --recursive https://github.com/kaldi-asr/kaldi 下載完成之後，開啟kaldi目錄，之後進入到tools資料夾（(compiling OpenFst; getting ATLAS and

語音識別轉文字的教程

　　語音如何識別轉換成文字呢？我們經常會在講座或者會議中將領導的發言錄下來，如果後期想整理會議中的內容的話可以先將錄下來的語音轉換成文字，那具體要怎樣去操作呢？跟著小編一起來看看吧！　　參考工具：迅捷OCR文字識別軟體　　操作步驟：　　1：語音轉文字是需要過電腦來實現的，所以

語音識別工具箱之kaldi介紹

最近有幾個人在群裡問我kaldi的問題，不巧的是最近我在忙我的開題。我對kaldi的瞭解也就是語音識別+深度學習。如果不是kaldi有dnn模型，或許我更願意用htk吧。其實，基本的都差不多吧。kaldi可以說是更加豐富吧。本來準備開題開語音識別，但是由於導師的

第三方整合訊飛語音識別文字轉音

private void init() { //合成監聽器 SynthesizerListener mSynListener = new SynthesizerListener() { //會話結束回撥介面，沒有錯誤時，error為null public

[轉]Kaldi語音識別

相關推薦