1. 程式人生 > >kaldi中文語音識別_基於thchs30(1)

kaldi中文語音識別_基於thchs30(1)

kaldi是語音識別的開源軟體包,網址http://www.kaldi-asr.org/ 

Kaldi's code lives at https://github.com/kaldi-asr/kaldi. To checkout (i.e. clone in the git terminology) the most recent changes, you can use this command git clone https://github.com/kaldi-asr/kaldi or follow the github link and click "Download in zip" on the github page (right hand side of the web page)


它的程式碼在這個網址,並且支援git 下載,所以我們先要下載它的程式碼工程。

然後我們還需要下載中文語音資料庫thchs30,網址是http://www.openslr.org/18/


進去以後我們看到,有data_thchs30.tgz    resource.tgz   test-noise.tgz 這三個語音檔案壓縮包連結地址,在最下面還有百度網盤的連結,我是下載的三個語音壓縮包的連結地址的那個。

首先,thchs30有兩種資料庫,kaldi執行的資料庫最好是 thchs30-openslr。

這裡我們下載kaldi的程式碼工程之後我們看一下cmd.sh指令碼,這個指令碼在egs/thchs30/s5下

這裡的解釋是s5中的cmd.sh中的英文解釋:

如果您沒有排隊系統,並且希望在本地機器上執行,您可以更改所有'queue.pl' 為 run.pl,(但是要小心,一個一個地執行該命令:大多數的方法會耗盡你機器上的記憶體)。

也就是說如果你要用run.pl的話你應該一步一步的執行這些指令碼,因為可能消耗掉你機器的記憶體,建議用指令碼註釋的方式一步一步來。

這裡的queue.pl為kaldi呼叫的gridengine,是一種多cpu(gpu)的一種並行處理的方案。如果你只有一臺計算機,這個恐怕完成不了,這個即使gridengine安裝成功,但是一般也會報錯,所以一般我們就用run.pl。

如果是slurm其他並行任務分發軟體配合,則是slurm.pl。

也就是說不同的並行處理方案要呼叫不同的指令碼,

為了描述這些差異,您可以建立和編輯檔案conf/queue.conf以匹配您的配置。

尋找關於conf/queue.conf 在http://kaldi-asr.org/doc/queue.html中獲取更多資訊,或者在utils/queue.pl 或者utils/slurm.pl中搜索字

符串的'default_config' 。這裡也就是說queue.pl在utils下

關於Kaldi的並行任務轉載人家的一片文章 https://blog.csdn.net/dqxiaoxiao/article/details/80250809

我們來看run.pl的解釋,它也在utils下

未完待續。。。。。。