thch30 steps/make_mfcc.sh詳解

阿新 • • 發佈：2018-11-09

這個指令碼的輸入引數有三個：1.data/mfcc/train 2.exp/make_mfcc/train 3.mfcc/train
1.data/mfcc/train中有資料預處理後的一些檔案：phone.txt spk2utt text utt2spk wav.scp word.txt
2.exp/make_mfcc/train中應該是要儲存程式執行的日誌檔案的
3.mfcc/train中是提取出的特徵檔案
1是輸入目錄，2，3是輸出目錄

#!/bin/bash

# Copyright 2012-2016  Johns Hopkins University (Author: Daniel Povey) 

# Apache 2.0
# To be run from .. (one directory up from here)
# see ../run.sh for example

# Begin configuration section.
nj=4
cmd=run.pl
mfcc_config=conf/mfcc.conf
compress=true
write_utt2num_frames=false  # if true writes utt2num_frames
# End configuration section.
# 列印這個指令碼的名稱以及所有的引數
echo "$0 [email protected] 
"  # Print the command line for logging
# 載入path.sh和parse_options.sh
if [ -f path.sh ]; then . ./path.sh; fi
. parse_options.sh || exit 1;
# 如果引數少於1或者大於3就提示使用指令碼錯誤
if [ $# -lt 1 ] || [ $# -gt 3 ]; then
   echo "Usage: $0 [options] <data-dir> [<log-dir> [<mfcc-dir>] ]";
   echo "e.g.: $0 
 data/train exp/make_mfcc/train mfcc"
   echo "Note: <log-dir> defaults to <data-dir>/log, and <mfccdir> defaults to <data-dir>/data"
   echo "Options: "
   echo "  --mfcc-config <config-file>                      # config passed to compute-mfcc-feats "
   echo "  --nj <nj>                                        # number of parallel jobs"
   echo "  --cmd (utils/run.pl|utils/queue.pl <queue opts>) # how to run jobs."
   echo "  --write-utt2num-frames <true|false>     # If true, write utt2num_frames file."
   exit 1;
fi

data=$1		# data=data/mfcc/train
if [ $# -ge 2 ]; then	# 如果引數大於等於2
  logdir=$2		# logdir=exp/make_mfcc/train
else
  logdir=$data/log
fi
if [ $# -ge 3 ]; then	# 如果引數大於等於3
  mfccdir=$3		#mfccdir=mfcc/train
else
  mfccdir=$data/data
fi

# make $mfccdir an absolute pathname.
mfccdir=`perl -e '($dir,$pwd)= @ARGV; if($dir!~m:^/:) { $dir = "$pwd/$dir"; } print $dir; ' $mfccdir ${PWD}`

# use "name" as part of name of the archive.
name=`basename $data`	# data/mfcc/train輸出train
# 建立mfcc特徵資料夾和log資料夾
mkdir -p $mfccdir || exit 1;
mkdir -p $logdir || exit 1;
# 如果之前有執行過生成了特徵資訊檔案則備份
if [ -f $data/feats.scp ]; then
  mkdir -p $data/.backup
  echo "$0: moving $data/feats.scp to $data/.backup"
  mv $data/feats.scp $data/.backup
fi

scp=$data/wav.scp	# 得到音訊路徑列表

required="$scp $mfcc_config"

for f in $required; do		# 檢測wav.scp和mfcc_config.sh檔案是否存在
  if [ ! -f $f ]; then
    echo "make_mfcc.sh: no such file $f"
    exit 1;
  fi
done
# 使用validate_data_dir.sh 檢測$data裡的內容是否正確
utils/validate_data_dir.sh --no-text --no-feats $data || exit 1;
if [ -f $data/spk2warp ]; then
  echo "$0 [info]: using VTLN warp factors from $data/spk2warp"
  vtln_opts="--vtln-map=ark:$data/spk2warp --utt2spk=ark:$data/utt2spk"
elif [ -f $data/utt2warp ]; then
  echo "$0 [info]: using VTLN warp factors from $data/utt2warp"
  vtln_opts="--vtln-map=ark:$data/utt2warp"
fi

for n in $(seq $nj); do	# 幾個執行緒就分幾個檔案 .ark中存放音訊mfcc特徵
  # the next command does nothing unless $mfccdir/storage/ exists, see
  # utils/create_data_link.pl for more info.
  utils/create_data_link.pl $mfccdir/raw_mfcc_$name.$n.ark
done


if $write_utt2num_frames; then
  write_num_frames_opt="--write-num-frames=ark,t:$logdir/utt2num_frames.JOB"
else
  write_num_frames_opt=
fi

if [ -f $data/segments ]; then	# 如果存在segments檔案則使用已有檔案
  echo "$0 [info]: segments file exists: using that."

  split_segments=""
  for n in $(seq $nj); do
    split_segments="$split_segments $logdir/segments.$n"
  done

  utils/split_scp.pl $data/segments $split_segments || exit 1;
  rm $logdir/.error 2>/dev/null

  $cmd JOB=1:$nj $logdir/make_mfcc_${name}.JOB.log \
    extract-segments scp,p:$scp $logdir/segments.JOB ark:- \| \
    compute-mfcc-feats $vtln_opts --verbose=2 --config=$mfcc_config ark:- ark:- \| \
    copy-feats --compress=$compress $write_num_frames_opt ark:- \
      ark,scp:$mfccdir/raw_mfcc_$name.JOB.ark,$mfccdir/raw_mfcc_$name.JOB.scp \
     || exit 1;

else	# 我使用的時候執行此分支
  echo "$0: [info]: no segments file exists: assuming wav.scp indexed by utterance."
  split_scps=""
  for n in $(seq $nj); do
    split_scps="$split_scps $logdir/wav_${name}.$n.scp"
    # 後面是 exp/make_mfcc/train/wav_train.1.scp
  done

  utils/split_scp.pl $scp $split_scps || exit 1;	# 使用指令碼處理 scp=$data/wav.scp


  # add ,p to the input rspecifier so that we can just skip over
  # utterances that have bad wave data.
	# 這裡用run.pl提取特徵開始
  $cmd JOB=1:$nj $logdir/make_mfcc_${name}.JOB.log \
    compute-mfcc-feats  $vtln_opts --verbose=2 --config=$mfcc_config \
     scp,p:$logdir/wav_${name}.JOB.scp ark:- \| \
      copy-feats $write_num_frames_opt --compress=$compress ark:- \
      ark,scp:$mfccdir/raw_mfcc_$name.JOB.ark,$mfccdir/raw_mfcc_$name.JOB.scp \
      || exit 1;
fi
#最後生成的應該就是mfcc/train 中的raw_mfcc_train.1.ark raw_mfcc_train.1.scp

if [ -f $logdir/.error.$name ]; then	# 如果出現了錯誤則打印出log中最後的錯誤資訊
  echo "Error producing mfcc features for $name:"
  tail $logdir/make_mfcc_${name}.1.log
  exit 1;
fi

# concatenate the .scp files together.
for n in $(seq $nj); do
  cat $mfccdir/raw_mfcc_$name.$n.scp || exit 1;
done > $data/feats.scp || exit 1	# 將所有的scp檔案拼接起來輸出到data/mfcc/train/feats.scp

if $write_utt2num_frames; then
  for n in $(seq $nj); do
    cat $logdir/utt2num_frames.$n || exit 1;
  done > $data/utt2num_frames || exit 1
  rm $logdir/utt2num_frames.*
fi
# 刪除過程檔案
rm $logdir/wav_${name}.*.scp  $logdir/segments.* 2>/dev/null

nf=`cat $data/feats.scp | wc -l`	# 輸出檔案的行數
nu=`cat $data/utt2spk | wc -l`
if [ $nf -ne $nu ]; then	# 檢測特徵的數目與音訊檔案的數目是否相同
  echo "It seems not all of the feature files were successfully processed ($nf != $nu);"
  echo "consider using utils/fix_data_dir.sh $data"
fi

if [ $nf -lt $[$nu - ($nu/20)] ]; then
  echo "Less than 95% the features were successfully generated.  Probably a serious error."
  exit 1;
fi

echo "Succeeded creating MFCC features for $name"

thch30 steps/make_mfcc.sh詳解

這個指令碼的輸入引數有三個：1.data/mfcc/train 2.exp/make_mfcc/train 3.mfcc/train 1.data/mfcc/train中有資料預處理後的一些檔案：phone.txt spk2utt text utt2spk wav.scp word.txt

kaldi筆記（三）train_mono.sh詳解

train_mono.sh 是音素訓練指令碼，下面詳細介紹各個功能： 1.首先是初始化GMM，使用的指令碼是/kaldi-trunk/src/gmmbin/gmm-init-mono，輸出是0.mdl和tree檔案； 2.compile training graphs,使用的指令碼是/kal

zookeeper 指令碼 zkServer.sh zkCli.sh zkCleanup.sh zkEnv.sh 詳解(一)

#!/bin/sh # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # th

hadoop啟動之“hadoop-daemon.sh”詳解

今天看了一下啟動檔案“Hadoop-daemon.sh”，仔細看了一下大概知道它的作用，使用“hadoop-daemon.sh“指令碼啟動和停止hadoop後臺程式。它可以做到在A機器上啟動”namenode“，B機器啟動”secondarynamenode“ C機器啟動”datanode

animation-timing-function的steps詳解

span 動畫 info str 小鳥 slow OS pre mage W3C裏的定義： animation-timing-function 規定動畫的速度曲線。這個屬性有很多取值， linear：線性過渡。等同於貝塞爾曲線(0.0, 0.0, 1.0, 1.0)

Zookeeper詳解（四）：Zookeeper中的zkCli.sh客戶端使用

zkCli.sh zookeeper客戶端最好配置上環境變量連接操作：zkCli.sh -timeout 1000 -r -server 127.0.0.1 # -timeout 設置客戶端和服務器之間的超時時長，單位毫秒 # -r 只讀模式，不加就是讀寫模式 # -server IP:PORT 要

分散式服務管理框架-Zookeeper客戶端zkCli.sh使用詳解

在學習zookeeper（下面簡稱zk）客戶端之前，有必要先了解一下zk的資料模型。zk維護著一個邏輯上的樹形層次結構，樹中的節點稱為znode，和Linux系統的檔案系統結構非常相似，如下圖所示：這種資料結構有如下特點： 1> 每個znod

GCTT(Go Chinese Translation Team) sync.sh同步命令詳解

git remote add upstream https://github.com/studygolang/GCTT 新增fork專案的遠端倉庫(只需操作一次) 此時使用 git remote -v zuoguoyaodeMacBook-Pro:GCTT zuo

animation的steps()用法詳解

一.steps介紹 steps()是一個timing function（animation中），允許我們將動畫或者過渡分割成段，而不是從一種狀態持續到另一種狀態的過渡。 Steps(<number_of_steps>，<direction>) 兩個引

Android編譯系統詳解(一)——build/envsetup.sh

http://www.cloudchou.com/android/post-134.html 準備好編譯環境後，編譯Rom的第一步是 source build/envsetup.sh，該步驟把envsetup.sh裡的函式宣告為當前會話終端可用的命令。這些命令能讓我們

CSS3 timing-function: steps() 詳解

一、不堪回首的過往在應用 CSS3 漸變/動畫時，有個控制時間的屬性 <timing-function> 。它的取值中除了常用到的三次貝塞爾曲線以外，還有個讓人比較困惑的 steps() 函式。在許多相關文章裡，關於這個函式的解釋都比較含糊其辭，比如： steps() 第一個引數

分散式服務管理框架-Zookeeper客戶端zkCli.sh，zkCli.cmd使用詳解(轉載)

在學習zookeeper（下面簡稱zk）客戶端之前，有必要先了解一下zk的資料模型。zk維護著一個邏輯上的樹形層次結構，樹中的節點稱為znode，和Linux系統的檔案系統結構非常相似，如下圖所示：這種資料結構有如下特點：每個znode都有唯

css中animation屬性animation-timing-function知識點以及屬性值steps()詳解

在animation中最重要的其實就是時間函式（animation-timing-function）這個屬性，他決定了你的動畫將以什麼樣的速度執行，所以最關鍵的屬性值也就是cubic-bezier(n,n,n,n),你平時用到的linear、ease、ease-out等都是基

java Io 流類詳解

修改文件目錄 != exe [] 深入 clas one fileinput 關於java 流類的復習；習慣性的復習按照圖結構一層層往下深入去了解去復習，最後通過代碼來實現感覺印象會更深刻一些；關於 I/O流：IO可以理解為JAVA用來傳遞數據的管道

cookie 和session 的區別詳解

重復處理方式一行所有有效依據是把存儲一個二者的定義：當你在瀏覽網站的時候，WEB 服務器會先送一小小資料放在你的計算機上，Cookie 會幫你在網站上所打的文字或是一些選擇，都紀錄下來。當下次你再光臨同一個網站，WEB 服務器會先看看有沒有它上次留下的

cd命令使用詳解

表示如果用戶家目錄 roo 環境變量方法字符實用效果　　cd命令是目錄切換命令，是shell內置命令。　　語法：　　　　cd [-L|-P] [dir] 　　選項：　　　　-p 如果要切換到的目標目錄是一個符號連接，直接切換到符號連接指向的目標目錄　　

setting.xml 配置詳解

校驗找不到順序裁剪全局 -- mls leg 觸發文件存放位置全局配置: ${M2_HOME}/conf/settings.xml 用戶配置: ${user.home}/.m2/settings.xml note：用戶配置優先於全局配置。${user.home}

R數據可視化----ggplot2之標度、坐標軸和圖例詳解

abs 調整所有不同的 size n) 默認表達 idt 標度控制著數據到圖形屬性的映射，當有需要時，ggplot2會自動添加一個默認的標度。我們確實可以在不了解標度運行原理的情況下畫出許多圖形，但理解標度並學會如何操縱它們則將賦予我們對圖形更強的控制能力。每一種圖

跨域資源共享CORS詳解

附加 accep 不發送地址 code 克服通信數據 ror 簡介 CORS是一個W3C標準，全稱是"跨域資源共享"（Cross-origin resource sharing）。它允許瀏覽器向跨源服務器，發出XMLHttpRequest請求，從而克服了AJAX

磁盤陣列 RAID 技術原理詳解

十分單獨很好不同的 raid1 miss 和數會同帶寬 RAID一頁通整理所有RAID技術、原理並配合相應RAID圖解，給所有存儲新人提供一個迅速學習、理解RAID技術的網上資源庫，本文將持續更新，歡迎大家補充及投稿。中國存儲網一如既往為廣大存儲界朋友提供免費、精

thch30 steps/make_mfcc.sh詳解

相關推薦