聲紋識別技術助力遠重慶時時彩技巧程身份認證無線互聯網以及智能手機的迅速發展
聲紋”作為一種典型的行為特征,相比其他生理特征在遠程身份認證中具有先天的優勢,文章介紹了聲密保在遠程身份認證中的應用,解析了一些在聲紋識別準確率、時變問題和噪音問題等方面的技術難點和工程解決經驗,最後針對遠程身份認證的安全性問題,分享了得意音通在防錄音闖入上的最新研究成果。希望對廣大讀者有所幫助。
聲紋在遠程身份認證中的應用
網絡安全面臨重大挑戰
無線互聯網以及智能手機的迅速發展,給人們日常生活帶來極大便利的同時也帶來了不容忽視的安全隱患,如何準確、迅速、安全地實現遠程身份認證成為擺在人們面前急需解決的問題。人們在實踐中發現,生物特征具有唯一且在一定時間內較穩定不變的特性,這種獨特的優勢使得生物特征識別技術被認為是終極的身份認證技術。
生理特征和行為特征
生物特征可分為生理特征和行為特征兩類,現在人們熟知的基本都是生理特征,包括指紋、人臉、掌紋、虹膜、DNA等,這些特征的特點是具有穩定性和持續的唯一性,因此基於這些特征建立的身份驗證系統識別率高,但存在容易丟失和被復制的問題。相比於生理特征,行為特征也具有唯一性,但是其復制成本極高,由於行為特征具有變化性,不慎丟失後或被竊取後,也難以直接使用來闖入系統。聲紋就是一種典型的行為特征。
聲紋——更好的遠程身份認證方式
基於生物特征的遠程身份認證的一個巨大挑戰是終端和網絡的安全性很難被保證,若黑客從網絡或終端上獲取用戶的生物特征,則可以輕易地侵入系統。基於聲紋行為特征的特點,若系統能確認每次進入系統的聲紋數據的實時性,則可以解決此問題,因為丟失的行為數據(錄音)並不能通過系統的實時性檢測。我們的聲密保系統即這方面解決方案的一個例子。圖1為聲密保系統的處理流程圖,聲密保系統通過對動態密碼語音中的密碼內容及請求人身份的雙重識別,實現對操作人身份合法性的雙重驗證。當需要認證時,系統會隨機產生一組動態碼(如6位或8位數字)要求用戶朗讀,系統對用戶讀出的聲音進行語音識別並將識別的內容與發出的動態碼數字進行比對,同時系統對用戶的發音進行聲紋比對,兩種認證手段都通過時才判斷通過。這種隨機性的引入使得文本相關識別中每一次采到的聲紋都有內容時序上的差異。
聲紋識別的一些工程經驗
形簡意豐的語音信號
語音信號具有得天獨厚的優勢,形簡意豐。語音表現形態簡單,僅表現為一維信號,但所涵蓋的信息非常豐富。如圖2所示,語音信號包含語義內容信息,語種(語言、方言)信息,說話人身份(唯一身份證明)、性別信息,情感信息(高興、悲傷、恐懼、焦慮……)等等。聲紋結合內容和情感等信息是阻止聲紋假冒和人身脅迫的最佳武器。
語音信號這一特點,使其具有極強的安全性,但同時給精確的聲紋識別也帶來挑戰,因為很難從語音中提取純粹的聲紋特征。我們在這些方面進行了大量的算法和工程方面的工作,並取得了不錯的效果。
識別準確率
雖然現在已經有許多成熟的算法使聲紋識別的準確率得到了明顯的提高,但相對於其它的生理特征,聲紋識別仍需要做更多的工作才能達到相同的水準。
我們使用了十萬人級別的數據庫對系統進行訓練,相比小數量級的系統,性能提升十分明顯,在萬人的測試數據庫上,EER仍可以保持在1%以下。
圖3總結了聲紋識別發展的歷史以及對應的三個重要階段。圖中所展示的各類聲紋識別技術我們均有深入研究,並且針對不同的應用場景我們合理的實現了“新老”技術的結合。
基於不同的算法,我們提出了虛擬引擎的概念,專門用於將各種算法進行融合。這種融合可以有效提高系統的識別性能,例如我們使用基於GMM-UBM和DNN-iVector的兩個引擎相同的數據集上進行測試,其錯誤重合率僅有20%左右。圖4表現了這一概念的實現,實際的引擎根據算法和配置的不同分為group、virtual-engine(虛擬引擎),調用這些實際引擎提供的接口並對算法進行融合處理,上層只需要和標準的虛擬引擎接口通訊即可。
時變問題
人的整個發聲系統隨著時間的推移會產生一定的變化,這些變化直接導致了其語音信息中的聲紋信息的變化,如果算法或系統不考慮這些變化,那麽一段時間後,系統的識別性能將有所下降。為此我們錄制了長達4年的100人的時變語音庫,基於此語音庫分析,我們找到了和時變相關的一些特征信息和規律,並試用其對MFCC和PLP特征的提取過程進行了修改。另外在工程方面,以聲密保系為例,其在架構設計中就考慮到了模型的在線更新問題,並設計了專門的語音篩選算法,系統會定期的挑選用戶符合條件的最新語音進行模型的重新訓練。
噪音問題
正如軟件工程中所提的沒有銀彈的概念一樣,任何技術都有一定的局限性,不可能無限制地應用於任何場景,聲紋技術在大噪音環境下並不適用。針對此我們開發了一套語音質量檢測的庫來對環境噪音和語音的信噪比進行檢測,將不符合條件的語音排除在系統之外並對用戶進行提示。此套噪音檢測系統采用了傳統的基於能量、包絡、自相關系數等特征的檢測算法和RNN/LSTM相結合方法,能準確的檢測出96%以上不符合條件的場景。
防錄音重放攻擊措施
在解決這些傳統問題的同時,為了保證用聲紋進行遠程身份認證的安全性,我們還提出了一系列防攻擊措施,包括動態密碼語音、用戶自定義密碼、多特征活體檢測和錄音重放等。由於篇幅有限,下面詳細介紹我們在錄音重放上的工作。
錄音重放是一種常見的聲紋特征盜取手段,由於采用動態密碼的方式,很難將一個人的各種發音組合全部錄制下來。但我們還是假設如果把這個人所有的文本發音(在聲密保系統中為0~9的數字發音)全部錄下來,然後根據系統提示的數字密碼進行拼接重放,那麽還是同一個人的聲音,是否能夠通過聲紋識別系統驗證呢?
我們先分析一個典型的錄音重放過程:
正常語音信號:y(t)=x(t)*a(t)
錄音重放語音信號:y’(t)=x(t)*a’(t) *d’(t)*a(t)
圖5中錄音ADCs(模數轉換)和重放DACs(數模轉換)是對語音信號的兩次傳輸,均會對原始信號產生影響,且ADCs和DACs是非連續可逆的,除了ADCs和DACs外,傳輸過程還包括噪音、混響等因素,錄音重放會造成信道失配和信號強度衰減等現象。
圖6給出了一段真實語音和其錄音重放後語音的時頻分析,可以看出在這種情況下真實語音和錄音重放語音很難被區分,錄音重放可以說是最容易實施和最難被檢測的假體攻擊方式。
2017年的Automatic Speaker Verification Spoofing and Countermeasures (ASVspoof) Challenge中,首次將錄音重放檢測納入到說話人識別的防闖入比賽中,一個理想的錄音重放檢測系統應該在已知和未知的條件下都很魯棒,包含與訓練數據不同的說話人、不同的錄音重放內容和不同的錄音重放設備。ASVspoof針對錄音重放檢測進行的比賽中,全球近100個團隊參加,最終提交了49個,我司的結果排在第5。相關的聲紋確認防錄音論文發表在Interspeech上。
《A Study on Replay Attack and Anti-Spoofing for Automatic Speaker Verification》論文主要分兩部分:第一部分分析了不同的說話人、文本和設備對錄音重放檢測性能的影響;第二部分給出了有效的錄音重放檢測算法實現。
論文用F-ratio來分析不同因素對重放檢測性能的影響。F-ratio是一個簡單的頻域加權方法,頻帶的權重可以由其對任務的判別能力決定。假設在分析語音譜時采用的濾波器個數為M,第i個濾波器的F-ratio可以定義為:
Cg表示真實語音,Cr表示重放語音。xi表示第i個濾波器語音幀x的值,uig和uir分別是濾波器內真實語音和重放語音所有幀的均值,Ng和Nr分別是兩類語音的語音幀數。最後用M個濾波器的F-ratio值組[F1,F2,…,FM]來分析真實語音和重放語音在不同頻帶上的區分性。
在ASVspoof中,開發集和測試集中含有比訓練集種類更多的錄音重放設備。在訓練集中利用少量設備的錄音重放語音進行模型訓練非常容易導致過擬合,弱化了提取的特征和訓練的模型的概化能力。為了提高概化能力,降低這種變化對重放檢測的影響,論文采用了頻率彎折的方法,如圖7所示,Mel方法增強了特征在低頻段的區分能力,IMel方法增強了特征在高頻段的區分能力。
圖8給出了在Mel和IMel兩種頻率彎折方法下,不同的說話人、文本內容、和錄音重放設備在濾波器組上的F-ratio值,從(c)列圖中可以看出用Mel方法,不同的錄音重放設備對濾波器組的F-ratio值影響很明顯;但是IMel方法大大降低了設備間差異對F-ratio的影響,這對後面建立概化能力更強的模型具有非常重要的意義。
在錄音重放檢測部分,論文使用(MFCC,LPCC和IMFCC)三種特征在訓練集上建立了基於GMM、ivector/SVM和DNN的重放檢測系統,並在開發集中進行了測試。從下面結果可以看出IMFCC特征是最有效的,最簡單的GMM模型取得了最好的效果,DNN模型雖然在表中也取得了不錯的效果,但是存在不穩定的問題,不同的初始化將導致不同的結果,有的差異很大。
其實在日常生活中用手機進行錄音重放是最方便的。相比於多樣性的錄音重放設備,手機等移動設備上的錄音重放檢測要簡單的多,我們曾經對60種不同型號的手機進行了接近十萬條的錄音重放檢測,結果重放的檢出率基本為100%。
總結
聲紋作為生物特征中的行為特征,配合語音識別技術,通過互動方式在遠程身份認證“用自己來證明自己”方面有其他生物特征難以替代的優勢。當然,就像前面提到的任何技術都有一定的局限性,不可能無限制的應用於任何場景。只有通過結合聲紋和其他生物特征組成多因子認證手段,才能更好地保證遠程身份認證安全。
聲紋識別技術助力遠重慶時時彩技巧程身份認證無線互聯網以及智能手機的迅速發展