說話人識別概述
阿新 • • 發佈:2018-07-26
方差 目前 數據 eight auto 產生 asr 可能 lang
說話人識別(Speaker Recognition,SR),又稱聲紋識別(Voiceprint Recognition,VPR),顧名思義,即通過聲音來識別出來“誰在說話”。語音識別(Automatic Speech Recognition,ASR)是通過聲音識別出來“在說什麽”。為了區分,本文的主題稱為聲紋識別VPR。
傳統的VPR多是采用MFCC特征以及GMM模型框架,也取得了非常優秀的結果,不再贅述。後續也出現了I-ivector,深度學習等更多的算法框架。
說話人識別中的經典方法是I-Vector,I-Vector建模方式稱為全局差異空間建模(Total Variability Modeling, TVM),采用該方法提取的I-Vector記為TVM-I-Vector。
在基於TVM-I-Vector的聲紋識別系統中,我們一般可以分為三個步驟。第一步是統計量的提取,第二步是提取I-Vector,第三步是進行信道補償技術。統計量的提取是指將語音數據的特征序列,比如MFCC特征序列,用統計量來進行描述,提取的統計量屬於高維特征,然後經過TVM建模,投影至低維空間中得到I-Vector。
在TVM-I-Vector建模中,統計量的提取是以UBM為基礎的,根據UBM的均值及方差進行相應統計量的計算。
基於DNN的說話人識別的基本思想是取代TVM中的UBM產生幀級後驗概率。即采用DNN進行幀級對齊的工作,繼而計算訓練數據的統計量,進行全局差異空間的訓練以及I-Vector的提取。
目前沒有詳細證據證明深度神經網絡或組合i-vector的深度神經網絡性能一定優於i-vector方法,可能原因是說話人識別中信道幹擾較多,難以搜集足夠數據訓練深度神經網絡。
說話人識別概述