kaldi使用cvte模型進行語音識別

阿新 • • 發佈：2019-10-27

作業系統： Unbutu18.04_x64

gcc版本：7.4.0

該模型在thch30資料集上測試的錯誤率只有8.25%，效果還是不錯的。

模型下載地址：

http://www.kaldi-asr.org/models/m2

選擇模型：CVTE Mandarin Model V2

測試文字：

自然語言理解和生成是一個多方面問題，我們對它可能也只是部分理解。

線上識別

測試指令碼

./online2-wav-nnet3-latgen-faster --do-endpointing=false --online=false --feature-type=fbank --fbank-config=../../egs/cvte/s5/conf/fbank.conf --max-active=7000 --beam=15.0 --lattice-beam=6.0 --acoustic-scale=1.0 --word-symbol-table=../../egs/cvte/s5/exp/chain/tdnn/graph/words.txt ../../egs/cvte/s5/exp/chain/tdnn/final.mdl ../../egs/cvte/s5/exp/chain/tdnn/graph/HCLG.fst 'ark:echo utter1 utter1|' 'scp:echo utter1 /tmp/test1.wav|' ark:/dev/null

識別結果：

LOG (online2-wav-nnet3-latgen-faster[5.5.421~1453-85d1a]:RemoveOrphanNodes():nnet-nnet.cc:948) Removed 1 orphan nodes.
LOG (online2-wav-nnet3-latgen-faster[5.5.421~1453-85d1a]:RemoveOrphanComponents():nnet-nnet.cc:847) Removing 2 orphan components.
LOG (online2-wav-nnet3-latgen-faster[5.5.421~1453-85d1a]:Collapse():nnet-utils.cc:1463) Added 1 components, removed 2
LOG (online2-wav-nnet3-latgen-faster[5.5.421~1453-85d1a]:CompileLooped():nnet-compile-looped.cc:345) Spent 0.00508595 seconds in looped compilation.
utter1 自然語言 理解 和 生成 時 你 該 付 多少 拗 暗 批 我們 對 他 能 爺 只是 部分 理解
LOG (online2-wav-nnet3-latgen-faster[5.5.421~1453-85d1a]:main():online2-wav-nnet3-latgen-faster.cc:286) Decoded utterance utter1
LOG (online2-wav-nnet3-latgen-faster[5.5.421~1453-85d1a]:Print():online-timing.cc:55) Timing stats: real-time factor for offline decoding was 0.442773 = 3.21453 seconds  / 7.26 seconds.
LOG (online2-wav-nnet3-latgen-faster[5.5.421~1453-85d1a]:main():online2-wav-nnet3-latgen-faster.cc:292) Decoded 1 utterances, 0 with errors.
LOG (online2-wav-nnet3-latgen-faster[5.5.421~1453-85d1a]:main():online2-wav-nnet3-latgen-faster.cc:294) Overall likelihood per frame was 1.84166 per frame over 724 frames.

可以看到，線上識別的效果比較差。

離線識別

1、直接用cvte自帶的指令碼進行識別

替換聲音檔案後，執行如下操作：

ln -s ~/kaldi/egs/wsj/s5/steps ~/kaldi/egs/cvte/s5/steps
ln -s ~/kaldi/egs/wsj/s5/utils ~/kaldi/egs/cvte/s5/utils
cd egs/cvte/s5
./run.sh

檢視結果：

mike@local:~/src/kaldi/egs/cvte/s5/exp$ cat chain/tdnn/decode_test/scoring_kaldi/penalty_1.0/10.txt
CVTE201703_00030_165722_11750 自然語言 理解 和 生成 是 一個 多方面 問題 我們 對 他 可能 也 只是 部分 理解
mike@local:~/src/kaldi/egs/cvte/s5/exp$

可以看到，識別效果還是相當好的。

缺點：
載入比較慢，導致整個識別過程比較慢

2、使用自定義指令碼進行識別

具體如下：

mike@local:demo1$ pwd
/home/mike/src/kaldi/egs/cvte/s5/demo1
mike@local:demo1$ cat run.sh
#! /bin/bash

cd /home/mike/src/kaldi/egs/cvte/s5
. ./cmd.sh
. ./path.sh

demo1/nnet3-latgen-faster --frame-subsampling-factor=3 --frames-per-chunk=50 --extra-left-context=0 --extra-right-context=0 --extra-left-context-initial=-1 --extra-right-context-final=-1 --minimize=false --max-active=7000 --min-active=200 --beam=15.0 --lattice-beam=8.0 --acoustic-scale=1.0 --allow-partial=true --word-symbol-table=exp/chain/tdnn/graph/words.txt exp/chain/tdnn/final.mdl exp/chain/tdnn/graph/HCLG.fst "ark,s,cs:apply-cmvn --norm-means=true --norm-vars=false --utt2spk=ark:data/fbank/test/utt2spk scp:data/fbank/test/cmvn.scp scp:data/fbank/test/feats.scp ark:- |" "ark:|lattice-scale --acoustic-scale=10.0 ark:- ark:- | gzip -c >exp/chain/tdnn/decode_test/lat.1.gz"


mike@local:demo1$
mike@local:demo1$ cat update.sh
#!/bin/bash

cd /home/mike/src/kaldi/egs/cvte/s5
. ./cmd.sh
. ./path.sh

# step 1: generate fbank features
obj_dir=data/fbank

for x in test; do
  # rm fbank/$x
  mkdir -p fbank/$x

  # compute fbank without pitch
  steps/make_fbank.sh --nj 1 --cmd "run.pl" $obj_dir/$x exp/make_fbank/$x fbank/$x || exit 1;
  # compute cmvn
  steps/compute_cmvn_stats.sh $obj_dir/$x exp/fbank_cmvn/$x fbank/$x || exit 1;
done

mike@local:demo1$

需要修改 nnet3-latgen-faster.cc 檔案，程式碼路徑：/home/mike/src/kaldi/src/nnet3bin/nnet3-latgen-faster.cc

主要是這個呼叫比較慢：

fst::ReadFstKaldiGeneric(fst_in_str)

載入後連續識別即可，修改後的測試程式碼：

  KALDI_LOG << "before load model :"<<time(NULL);
  // Input FST is just one FST, not a table of FSTs.
  Fst<StdArc> *decode_fst = fst::ReadFstKaldiGeneric(fst_in_str);
  KALDI_LOG << "load model ok :"<<time(NULL);
  timer.Reset();

  int i = 0;
  while(1){
    clock_t start, finish;
    start = clock();
    i = i+1;
    system("bash /home/mike/src/kaldi/egs/cvte/s5/demo1/update.sh  >/dev/null 2>&1 &");
    KALDI_LOG << "decode i = "<<i<<",timestamp :"<<time(NULL);
    LatticeFasterDecoder decoder(*decode_fst, config);
    SequentialBaseFloatMatrixReader feature_reader(feature_rspecifier);

    for (; !feature_reader.Done(); feature_reader.Next()) {
      std::string utt = feature_reader.Key();
      const Matrix<BaseFloat> &features (feature_reader.Value());
      if (features.NumRows() == 0) {
        KALDI_WARN << "Zero-length utterance: " << utt;
        num_fail++;
        continue;
      }
      const Matrix<BaseFloat> *online_ivectors = NULL;
      const Vector<BaseFloat> *ivector = NULL;
      if (!ivector_rspecifier.empty()) {
        if (!ivector_reader.HasKey(utt)) {
          KALDI_WARN << "No iVector available for utterance " << utt;
          num_fail++;
          continue;
        } else {
          ivector = &ivector_reader.Value(utt);
        }
      }
      if (!online_ivector_rspecifier.empty()) {
        if (!online_ivector_reader.HasKey(utt)) {
          KALDI_WARN << "No online iVector available for utterance " << utt;
          num_fail++;
          continue;
        } else {
          online_ivectors = &online_ivector_reader.Value(utt);
        }
      }

      DecodableAmNnetSimple nnet_decodable(
          decodable_opts, trans_model, am_nnet,
          features, ivector, online_ivectors,
          online_ivector_period, &compiler);

      double like;
      if (DecodeUtteranceLatticeFaster(
              decoder, nnet_decodable, trans_model, word_syms, utt,
              decodable_opts.acoustic_scale, determinize, allow_partial,
              &alignment_writer, &words_writer, &compact_lattice_writer,
              &lattice_writer,
              &like)) {
        tot_like += like;
        frame_count += nnet_decodable.NumFramesReady();
        num_success++;
      } else num_fail++;
    }
    finish = clock();
    KALDI_LOG << "decode i = "<<i<<",timestamp :"<<time(NULL)<<",diff :"<<(double)(finish - start) / CLOCKS_PER_SEC <<"s";
    printf("preess Enter to continue");
    getchar();
  }

View Code

測試效果：

LOG (nnet3-latgen-faster[5.5.421~1453-85d1a]:main():nnet3-latgen-faster.cc:202) decode i = 1,timestamp :1567735067,diff :0.817448s
preess Enter to continue
LOG (nnet3-latgen-faster[5.5.421~1453-85d1a]:main():nnet3-latgen-faster.cc:151) decode i = 2,timestamp :1567735237
apply-cmvn --norm-means=true --norm-vars=false --utt2spk=ark:data/fbank/test/utt2spk scp:data/fbank/test/cmvn.scp scp:data/fbank/test/feats.scp ark:-
LOG (apply-cmvn[5.5.421~1453-85d1a]:main():apply-cmvn.cc:162) Applied cepstral mean normalization to 1 utterances, errors on 0
CVTE201703_00030_165722_11750 自然語言 理解 和 生成 是 一個 多方面 問題 我們 對 他 可能 也 只是 部分 理解
LOG (nnet3-latgen-faster[5.5.421~1453-85d1a]:DecodeUtteranceLatticeFaster():decoder-wrappers.cc:289) Log-like per frame for utterance CVTE201703_00030_165722_11750 is 2.32415 over 242 frames.
LOG (nnet3-latgen-faster[5.5.421~1453-85d1a]:main():nnet3-latgen-faster.cc:202) decode i = 2,timestamp :1567735238,diff :0.845735s
preess Enter to continue

可以看到，識別效果還是相當好的。
當然，這個只是測試，替換檔案後，直接按回車進行識別，能達到預期效果。如果需要在實際專案中使用，上述程式碼做的遠遠不夠。

本文中涉及訓練資料及測試示例地址：https://pan.baidu.com/s/1jyeWkZvU8ZjLt4Y9y9B89g

可關注微信公眾號後回覆 19102601 獲取提取碼。

本文github地址：

https://github.com/mike-zhang/mikeBlogEssays/blob/master/2019/20191026_kaldi使用cvte模型進行語音識別

kaldi使用cvte模型進行語音識別

作業系統： Unbutu18.04_x64 gcc版本：7.4.0 該模型在thch30資料集上測試的錯誤率只有8.25%，效果還是不錯的。模型下載地址： http://www.kaldi-asr.org/models/m2 選擇模型：CVTE Mandarin Model V2 測試文字：

使用FFmpeg進行視頻抽取音頻，之後進行語音識別轉為文字

buffer and @param size eve turn stand try you 1、首先需要下載FFmpeg； 2、Gradle依賴 def void forceVersion(details, group, version) { if (detai

一種利用語音深度神經網路進行語音識別的新方案

A NOVEL SCHEME FOR SPEAKER RECOGNITION USING A PHONETICALLY-AWARE DEEP NEURAL NETWORK Yun Lei Nicolas Scheffer Luciana Ferrer Mitchell McLaren 美國加

神經網路語言模型在語音識別的應用論文整理

本人整理了NN語言模型在語音識別領域的應用論文。全部為2015年-2018年的會議論文。相關的期刊論文特別少，而且創新性沒有會議高。論文幾乎全部是語音類的最高級別會議ICASSP（B類）和Interspeech. 如果懶得自己下的話，可以留下郵

c# OpenCv 2-使用haarcascade模型進行人臉識別

Test： 1. 讀取cascade模型檔案 2. 對輸入的圖片進行灰度處理 3. 使用cascade以及模型檔案（本例使用的是人臉正面）對圖片進行預測 TestCrop：步驟如Test，截取出人臉照片 haarcascades的模型可以從opencv獲得:https://github

使用FFmpeg進行視訊抽取音訊，之後進行語音識別轉為文字

package com.my.ai.service; import java.io.BufferedReader; import java.io.File; import java.io.InputStreamReader; import java.util.ArrayList; import java.

kaldi使用訓練好的模型做語音識別

關於模型的訓練這裡就不寫了，網上搜thchs30資料有很多，關鍵說一下如果使用訓練好的模型大體的過程參考這裡：https://www.2cto.com/kf/201706/651060.html 上面的步驟基本是正確的，但是有一個關鍵點有問題，就是run.sh檔案的修改上

使用C#進行語音識別(Speech-to-Text)

本文大體的介紹怎樣通過使用C#和Speech SDK5.1來進行語音識別，通過微軟提供的Speech SDK你也可以使用其他的語言進行語音識別的開發，目前最新的Release版本是5.1。介紹聲音的交流是我們平時最常見的交流方式，但是在人

C#中的深度學習（五）：在ML.NET中使用預訓練模型進行硬幣識別

在本系列的最後，我們將介紹另一種方法，即利用一個預先訓練好的CNN來解決我們一直在研究的硬幣識別問題。在這裡，我們看一下轉移學習，調整預定義的CNN，並使用Model Builder訓練我們的硬幣識別模型。我們將使用ML.NET代替Keras.NET。為什麼不使用Keras.NET呢?儘管Keras.NE

重磅！MaxCompute助力阿裏開源自研語音識別模型DFSMN，準確率高達96.04%

href p s 開始 phone 兩層下一個 latency 16bit product 摘要：阿裏開源語音識別模型DFSMN 在近期舉行的雲棲大會武漢峰會上，裝有DFSMN語音識別模型的“AI收銀員”在與真人店員的PK中，在嘈雜環境下準確識別了用戶的語音點單，在短短

kaldi中文語音識別thchs30模型訓練程式碼功能和配置引數解讀

Monophone 單音素模型的訓練 # Flat start and monophone training, with delta-delta features. # This script applies ceps

語音識別系統語言模型的訓練和聲學模型的改進

10個 ext 個數靜音介紹準備上下詞匯表數據一、訓練語言模型詞與詞之間存在著合乎句法與否的約束，語言模型就是用來表示這些約束的，它可以提供字與字之間的上下文信息和語義信息。N-gram模型，即對訓練音頻文件所對應的文本文件進行統計，提取不同字

公開課 | 詳解CNN-pFSMN模型以及在語音識別中的應用

近年來，在深度學習技術的幫助下，語音識別取得了極大的進展，從實驗室開始走向市場，走向實用化。基於語音識別技術的輸入法、搜尋和翻譯等人機互動場景都有了廣泛的應用。 Librispeech是當前衡量語音識別技術的最權威主流的開源資料集。錯詞率（Worderrorrate，WER

公開課報名 | 詳解CNN-pFSMN模型以及在語音識別中的應用

近年來，在深度學習技術的幫助下，語音識別取得了極大的進展，從實驗室開始走向市場，走向實用化。基於語音識別技術的輸入法、搜尋和翻譯等人機互動場景都有了廣泛的應用。 Librispeech是當前衡量語音識別技術的最權威主流的開源資料集。錯詞率（Worderrorrate，WER）是衡量

Connectionist Temporal Classification(CTC)、音識別模型小型綜述和一個簡易的語音識別模型的tensorflow實現

CTC是一種端到端的語音識別技術，他避免了需要字或者音素級別的標註，只需要句子級別的標註就可以進行訓練，感覺非常巧妙，也很符合神經網路浪潮人們的習慣。特別是LSTM+CTC相較於之前的DNN+HMM，LSTM能夠更好的捕捉輸入中的重要的點（LSTM隨著狀態數目增加引數呈線性增加，而HMM會平

深度學習框架Tensorflow學習與應用(八儲存和載入模型，使用Google的影象識別網路inception-v3進行影象識別)

一模型的儲存 [email protected]:~/tensorflow$ cat 8-1saver_save.py # coding: utf-8 # In[1]: import tensorflow as tf from tensorflow.examples.tutorials

語音識別語言模型和拼音字典檔案製作

接我前面的文章，下載 pocketsphinx 和中文模型檔案。由於模型檔案格式有一些要求，所以建議對模型檔案的編輯都在Linux上完成。準備中文語言檔案建立一個文字檔案 my.txt，內容如下：測試直走左轉右轉後退開火靠嘍生成語音模型檔案和

java呼叫tensorflow模型進行圖片分類識別

https://github.com/tensorflow/tensorflow/tree/master/tensorflow/java以下是識別結果：(tensorflow)[email protected]:~/tensorflow/tensorflow/org

ROS下使用科大訊飛SDK進行線上語音識別

以線上命令詞識別為例：主要步驟、易產生的錯誤其解決辦法如下： 1、下載SDK，解壓； 2、在ROS工作空間下建立一個Package； catkin_create_pkg xfei_asr roscpp rospy std_msgs 3、將SDK資料夾中的標頭檔案，即

使用微軟的語音識別引擎Microsoft Speech API進行語音控制

本人僅作提取： SREngine語音識別引擎封裝類： #pragma once /************************************************************************/ /* Notice: this pr

kaldi使用cvte模型進行語音識別

線上識別

離線識別

相關推薦