GPLDA的LN和各種GPLDA很皮的玩法(有疑問請提出)
gplda也就是我們常說的plda,即假設設本徵音和本徵通道滿足高斯分佈而得名.
ht-plda:重尾分佈的PLDA, 重尾分佈是指少量個體作出大量貢獻,佔大量的資源,假設的是student t 分佈
在一些論文中可以看到,ivector在HT-PLDA上的表現比GPLDA好,並且HT-PLDA的假設是說話人因子和抖動空間是符合student t 分
布,這樣就說明ivector中有很多非高斯的行為.
但是科學家大牛們就很皮,他們覺得由於GPLDA的效率和簡單性,HT-PLDA好是好但是騷操作很多,實現起來不是那麼的高效好用,他
們希望繼續保持PLDA的高斯簡便性設並且對ivector進行一些轉換去減少一些非高斯行為從而減少ivector中非高斯行為對最後效能的影響.畢竟,萬物皆高斯(⊙ο⊙)
大牛們的解決辦法是:一可以用簡單的LN+Whitening處理,第二個是非線性轉換
論文:Analysis of I-vector Length Normalization in Speaker Recognition Systems
參考上面論文,他們的想法和結果展示
Daniel Garcia-Romero教授(來自Kaldi爸媽的學校JHU,x-vector創始人之一)相比Partrick Kenny的論文真的是通俗易懂,公式只挑有用的留著,文字不廢話,妥妥乾貨.
其實後續蠻多對PLDA無論是訓練還是打分的研究都是基於這篇論文,以及HT-PLDA和G-PLDA之間效能差別的分析想法.而我最近
就是在實現很多其他的PLDA的做法,我們稱之為後處理.等後續有發現後再來發文.
HT-PLDA 論文參考:Bayesian Speaker Verification with Heavy-Tailed Priors
Patrick Kenny這老哥寫的論文無論是什麼,都是妥妥的公式,我數學渣滓,嘔血都啃不來,有大神理解後,請告訴我一聲.
如我寫的東西有問題,請及時告訴我改正,謝謝!
手上的專案完成後應該會開始深度學習的內容,雖然我覺得傳統演算法的東西高深莫測,但是現在公司都在深度學習,不前進不行,
但我個人認為,深度學習與傳統演算法的差別在於特徵的差別,所以效能在各大領域會提高很多.畢竟傳統演算法的特徵都是基於很多假
設,假設即真實的世界不一定如大牛們所想,所以一定會存在一定的偏差.
日後更新以前的博文,並且把ivector的真正設計到的公式po上來,並且再聊聊我對說話人識別深度學習的感悟.但這個時間又得很久咯~