說話人識別概述

阿新 • • 發佈：2018-07-26

方差目前數據 eight auto 產生 asr 可能 lang

說話人識別（Speaker Recognition，SR），又稱聲紋識別（Voiceprint Recognition,VPR），顧名思義，即通過聲音來識別出來“誰在說話”。語音識別（Automatic Speech Recognition，ASR）是通過聲音識別出來“在說什麽”。為了區分，本文的主題稱為聲紋識別VPR。

傳統的VPR多是采用MFCC特征以及GMM模型框架，也取得了非常優秀的結果，不再贅述。後續也出現了I-ivector，深度學習等更多的算法框架。

說話人識別中的經典方法是I-Vector，I-Vector建模方式稱為全局差異空間建模（Total Variability Modeling, TVM），采用該方法提取的I-Vector記為TVM-I-Vector。

技術分享圖片

在基於TVM-I-Vector的聲紋識別系統中，我們一般可以分為三個步驟。第一步是統計量的提取，第二步是提取I-Vector，第三步是進行信道補償技術。統計量的提取是指將語音數據的特征序列，比如MFCC特征序列，用統計量來進行描述，提取的統計量屬於高維特征，然後經過TVM建模，投影至低維空間中得到I-Vector。

在TVM-I-Vector建模中，統計量的提取是以UBM為基礎的，根據UBM的均值及方差進行相應統計量的計算。

基於DNN的說話人識別的基本思想是取代TVM中的UBM產生幀級後驗概率。即采用DNN進行幀級對齊的工作，繼而計算訓練數據的統計量，進行全局差異空間的訓練以及I-Vector的提取。

目前沒有詳細證據證明深度神經網絡或組合i-vector的深度神經網絡性能一定優於i-vector方法，可能原因是說話人識別中信道幹擾較多，難以搜集足夠數據訓練深度神經網絡。

說話人識別概述

方差目前數據 eight auto 產生 asr 可能 lang 說話人識別（Speaker Recognition，SR），又稱聲紋識別（Voiceprint Recognition,VPR），顧名思義，即通過聲音來識別出來“誰在說話”。語音識別（Automatic

說話人識別概述

說話人識別概述

語音識別概述

在伺服器上執行kaldi說話人識別模型訓練程式遇到的小問題

機器學習：人臉識別概述

說話人識別/聲紋識別學習路徑的資料整理,從零學聲紋識別

Kaldi 對說話人識別GMM-UBM的MAP 引數更新和對數似然概率解讀

說話人識別開集open-set和閉集close-set的區別

利用說話人嵌入實現混響環境下遠距離語音的魯棒說話人識別

說話人識別中的VAD

學習說話人識別和驗證的判別特徵

小白聲紋識別（說話人識別）探索

手把手教你成為Shader程式設計達人系列概述

培訓話語級嵌入網路，用於說話人識別和驗證

KALDI之aishell模型說話人識別之V1

VoxCeleb2：深度說話人識別

基於ROS的Most Stars開原始碼彙總（自動駕駛汽車+RGBDSLAMv2+ROS2+人識別與跟蹤等）

人臉表情識別概述（一）

基於深度神經網路特徵提取的文字無關的說話人識別

kaldi基礎介紹（一）在說話人識別中的資料準備

常用牛人主頁鏈接（計算機視覺、模式識別、機器學習相關方向,陸續更新。。。。）【轉】

說話人識別概述

相關推薦