說話人識別中的VAD

阿新 • • 發佈：2018-11-15

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow

也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

本文根據kaldi中的vad的演算法 kaldi/src/ivector/voice-activity-detection.cc以及網上的一些資源來總結一下這個知識點。

首先VAD的全稱是：Voice Activity Detection （語音啟用檢

測），能夠區分傳輸語音訊號中的語音訊號和背景噪音，當然還能在通訊中區分語音和靜默段能夠區分傳輸語音訊號中的語音訊號和背景噪音，

避免頻寬資源的浪費，這裡我們只討論在說話人識別中需要區分背景噪音來構建UBM模型。

下面直接看kaldi的原始碼，注意看註釋

run.sh中呼叫下面computer_vad_decision.sh

Usage: $0 [options] <data-dir> <log-dir> <path-to-vad-dir>

[plain]

view plain copy

sid/compute_vad_decision.sh --nj 40 --cmd "$train_cmd" \
data/train exp/make_vad $vaddir

在 computer_vad_decision.sh呼叫的是

Usage: compute-vad [options] <feats-rspecifier> <vad-wspecifier>

輸入的是每一個feats檔案，由於上邊的nj是40，所以這JOB： 1～40，輸入mfcc.ark 輸出vad.ark

compute-vad --config=$vad_config scp:$sdata/JOB/feats.scp ark,scp:$vaddir/vad_${name}.JOB.ark,$vaddir/vad_${name}.JOB.scp

computer-vad是 kaldi/src/ivectorbin/compute-vad.cc 下面是 computer-vad.cc中的邏輯：

[cpp] view plain copy

for (;!feat_reader.Done(); feat_reader.Next()) {

[cpp] view plain copy

＃讀取每一句話
std::string utt = feat_reader.Key();
Matrix<BaseFloat> feat(feat_reader.Value());
if (feat.NumRows() == 0) {
KALDI_WARN << "Empty feature matrix for utterance " << utt;
num_err++;
continue;
}

[cpp] view plain copy

＃宣告一個vector, 維數＝一句話的幀數
Vector<BaseFloat> vad_result(feat.NumRows());
＃然後是計算vad,一個可選引數集合，mfcc的matrix，返回的結果vertor, 看下一個的原始碼片段
ComputeVadEnergy(opts, feat, &vad_result);
double sum = vad_result.Sum();
if (sum == 0.0) {
KALDI_WARN << "No frames were judged voiced for utterance " << utt;
num_unvoiced++;
} else {
num_done++;
}
tot_decision += vad_result.Sum();
tot_length += vad_result.Dim();
if (!(omit_unvoiced_utts && sum == 0)) {
vad_writer.Write(utt, vad_result);
}
}

下面這個是計算vad結果的函式： kaldi / src / ivector / voice-activity-detection.cc

[cpp] view plain copy

#include "ivector/voice-activity-detection.h"
#include "matrix/matrix-functions.h"
namespace kaldi {
void ComputeVadEnergy(const VadEnergyOptions &opts,
const MatrixBase<BaseFloat> &feats,
Vector<BaseFloat> *output_voiced) {

[cpp] view plain copy

＃feats是mfcc的特徵矩陣

[cpp] view plain copy

int32 T = feats.NumRows();
output_voiced->Resize(T);
if (T == 0) {
KALDI_WARN << "Empty features";
return;
}

[cpp] view plain copy

#定義一個維度為T的vector
Vector<BaseFloat> log_energy(T);

[cpp] view plain copy

＃激昂feats的第0列as log_energy的value
log_energy.CopyColFromMat(feats, 0); // column zero is log-energy.
#讀取配置檔案中的噪聲的閾值: <span style="font-family: Menlo; font-size: 11px;">--vad-energy-threshold=5.5，若小於這個值則為噪音，若大於則為語音訊號
BaseFloat energy_threshold = opts.vad_energy_threshold;

[cpp] view plain copy

#讀取配置檔案中：

[cpp] view plain copy

if (opts.vad_energy_mean_scale != 0.0) {
KALDI_ASSERT(opts.vad_energy_mean_scale > 0.0);
energy_threshold += opts.vad_energy_mean_scale * log_energy.Sum() / T;
}
KALDI_ASSERT(opts.vad_frames_context >= 0);
KALDI_ASSERT(opts.vad_proportion_threshold > 0.0 &&
opts.vad_proportion_threshold < 1.0);
for (int32 t = 0; t < T; t++) {
const BaseFloat *log_energy_data = log_energy.Data();
int32 num_count = 0, den_count = 0, context = opts.vad_frames_context;
for (int32 t2 = t - context; t2 <= t + context; t2++) {
if (t2 >= 0 && t2 < T) {
den_count++;
if (log_energy_data[t] > energy_threshold)
num_count++;
}
}
if (num_count >= den_count * opts.vad_proportion_threshold)
(*output_voiced)(t) = 1.0;
else
(*output_voiced)(t) = 0.0;
}
}
}

下面我將給出一個實際的計算過程的demo:

其中raw_mfcc_train1.txt 和 vad_train1.txt分別是在mfcc目錄下執行：

./../../../../src/bin/copy-vector ark:vad_train.1.ark ark,t:- > vad_train1.txt

./../../../../src/featbin/copy-feats ark:raw_mfcc_train.1.ark ark,t:- > raw_mfcc_train1.txt

[python] view plain copy

import numpy as np
def read_feats(filename):
f = open(filename, 'r')
all_xs = []
arr = []
for line in f:
temp = []
if '[' in line:
pass
else:
l = line.strip().split(' ')
#print "l->",len(l)
if ']' in l:
l_temp = l[:-1]
for i in range(len(l_temp)):
if l_temp[i] != '':
temp.append(eval(l_temp[i]))
#print "temp->",len(temp)
arr.append(temp)
all_xs.append(arr)
arr = []
else:
for i in range(len(l)):
if l[i] != '':
temp.append(eval(l[i]))
#print "temo->",len(temp)
arr.append(temp)
return all_xs
mfcc_filename = 'raw_mfcc_train1.txt'
all_feats = read_feats(mfcc_filename)
vad_energy_threshold = 5.5
vad_energy_mean_scale = 0.5
vad_frames_context = 5
vad_proportion_threshold =

說話人識別中的VAD

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

kaldi基礎介紹（一）在說話人識別中的資料準備

在kaldi說話人識別示例（egs/sre10,egs/sre16）中，資料總共有兩大類，一是訓練集（training），二是評估資料集（evaluation）。對於評估資料集又分為兩類，一是用來註冊（enrollment）的資料集，二是測試（test）集。一、訓練集的準備訓

人臉識別中的harr特征提取（轉）

tegra 思想 facede 時間掃描計算開始矩形輸入影響AdaBoost人臉檢測訓練算法速度很重要的兩方面是特征選取和特征計算。選取的特征為矩特征為Haar特征，計算的方法為積分圖。（1）Haar特征： Haar特征分為三類：邊緣特征、線性特征、中

【王曉剛】深度學習在圖像識別中的研究進展與展望

ast eric all orm 反向 nic 分類函數大網 goole 深度學習是近十年來人工智能領域取得的最重要的突破之中的一個。它在語音識別、自然語言處理、計算機視覺、圖像與視頻分析、多媒體等諸多領域都取得了巨大成功。本文將重點介紹深度學習在物體

知物由學 | 基於DNN的人臉識別中的反欺騙機制

ctu 打印 mage eas 系統分類傳遞實時技術分享 “知物由學”是網易雲易盾打造的一個品牌欄目，詞語出自漢·王充《論衡·實知》。人，能力有高下之分，學習才知道事物的道理，而後才有智慧，不去求問就不會知道。“知物由學”希望通過一篇篇技術幹貨、趨勢解讀、人物思考和

神經網絡做體態識別中一些參數的意義

snapshot ota rotation hsi 範圍神經網絡過程訓練數據 size 因為目前使用的工具是chainer，所以就用裏邊的簡寫了。 batchsize 128 ---- 一次叠代修改參數所使用的數據個數 epoch 100 ---- 一次epoc

說話人識別概述

方差目前數據 eight auto 產生 asr 可能 lang 說話人識別（Speaker Recognition，SR），又稱聲紋識別（Voiceprint Recognition,VPR），顧名思義，即通過聲音來識別出來“誰在說話”。語音識別（Automatic

人成長中必須知道的20個故事 [轉載]

一周創作離開失敗想想再次經理條件向上寫在前面：在我的學生時代，非常喜歡這種小文。他們應該屬於那種心靈雞湯吧，或者說充滿了正能量。品讀他們時，就像在欣賞一首音樂，滋潤人的心田，給人積極向上的力量。畢業後，也許因為我們性格已養成，業務因為太忙碌了，也許因為不

卷積神經網路（CNN）在語音識別中的應用

卷積神經網路（CNN）在語音識別中的應用作者：侯藝馨前言總結目前語音識別的發展現狀，dnn、rnn/lstm和cnn算是語音識別中幾個比較主流的方向。2012年，微軟鄧力和俞棟老師將前饋神經網路FFDNN（Feed Forward Deep Neural Network）引入到聲學模

卷積神經網絡（CNN）在語音識別中的應用

現狀 each htm 介紹產品都在 color pcnn tmp 卷積神經網絡（CNN）在語音識別中的應用作者：侯藝馨前言總結目前語音識別的發展現狀，dnn、rnn/lstm和cnn算是語音識別中幾個比較主流的方向。2012年，微軟鄧力和俞棟老師將前饋神經網絡FFDN

深度學習在視訊動作識別中的應用

深度學習在最近十來年特別火，幾乎是帶動AI浪潮的最大貢獻者。網際網路視訊在最近幾年也特別火，短視訊、視訊直播等各種新型UGC模式牢牢抓住了使用者的消費心裡，成為網際網路吸金的又一利器。當這兩個火碰在一起，會產生什麼樣的化學反應呢? 　　不說具體的技術，先上一張福利圖，該圖展

在伺服器上執行kaldi說話人識別模型訓練程式遇到的小問題

伺服器上已開啟安裝了kaldi工具的docker容器，開啟方法見上一篇部落格。說話人識別的例程用的是aishell提供的資料集，這裡我的資料集已經下載到伺服器了，所以後面我會再執行腳本里去掉下載資料集的命令。 1、容器開啟的方法：在上一篇部落格的基礎上用以下命令開啟 docker

說話人識別/聲紋識別學習路徑的資料整理,從零學聲紋識別

昨天幫新同事講解了一波說話人識別的理論,並且幫他整理了資料讓他學習, 這個部落格就是把最具有代表性的資料記錄下來,前提,我假設你知道啥是MFCC,啥是VAD,啥是CMVN了. 說話人識別學習路徑無非就是 GMM-UBM -> JFA -> Ivector-PLDA -> D

Kaldi 對說話人識別GMM-UBM的MAP 引數更新和對數似然概率解讀

寫部落格=寫日記，為自己記錄工作進度和理論知識，如果有恰好路過的大牛經過，可以駐足看看我的理解本人剛接觸說話人識別不到一個月，因工作需求研究了kaldi。大致弄懂了GMM-UBM，正在研究Ivector的理論和實踐. 雖然個人更喜歡資料分析，資料探勘和傳統的機器學習。但能學到不同領域的AI知識

說話人識別開集open-set和閉集close-set的區別

先引用知乎上 @LEON晉大神解釋的說話人識別對說話人準確率判斷的兩個評分標準：在一批本該全部正確(TRUE)的列表中出現幾個沒識別出正確的語音，這個就是錯誤拒識FR(False Rejection)，是Miss的；在一批本該全部錯誤(Flase)的列表中出現了幾個沒識別出錯誤的語音

利用說話人嵌入實現混響環境下遠距離語音的魯棒說話人識別

Robust Speaker Recognition from Distant Speech under Real Reverberant Environments Using Speaker Embeddings 3.演講者識別系統在本節中，我們將描述為我們的實驗

公開課 | 詳解CNN-pFSMN模型以及在語音識別中的應用

近年來，在深度學習技術的幫助下，語音識別取得了極大的進展，從實驗室開始走向市場，走向實用化。基於語音識別技術的輸入法、搜尋和翻譯等人機互動場景都有了廣泛的應用。 Librispeech是當前衡量語音識別技術的最權威主流的開源資料集。錯詞率（Worderrorrate，WER

C#用Tesseract進行OCR識別，可識別中英日韓所有語言

原始碼下載：https://download.csdn.net/download/horseroll/10739546 原始碼下包含部分語言包，所以檔案比較大先上效果圖。測試中文英文日語識別，其他語言也都行，只要下載相應的語言包，操作使用後面都有講 1

學習說話人識別和驗證的判別特徵

Learning Discriminative Features for Speaker Identification and Verification 學習說話人識別和驗證的判別特徵摘要任何文字獨立的說話者識別和/或驗證系統的成功依賴於系統學習辨別特徵的能力。在本文中，我們提

深度學習在視訊行為識別中應用

深度學習在最近十來年特別火，幾乎是帶動AI浪潮的最大貢獻者。網際網路視訊在最近幾年也特別火，短視訊、視訊直播等各種新型UGC模式牢牢抓住了使用者的消費心裡，成為網際網路吸金的又一利器。當這兩個火碰在一起，會產生什麼樣的化學反應呢? 　　不說具體的技術，先上一張福利圖，該圖展示了機器對一個視訊的認

說話人識別中的VAD

相關推薦