1. 程式人生 > >LOCUST - 用於說話人驗證的縱向語料庫和工具集

LOCUST - 用於說話人驗證的縱向語料庫和工具集

LOCUST - Longitudinal Corpus and Toolset for Speaker Verification

摘要

在本文中,我們提出了一個新的縱向語料庫和工具集,以努力解決語音老化對說話人驗證的影響。

我們已經檢查過以前對年齡相關語音變化的縱向研究以及它對現實世界用例的適用性。我們的研究結果表明,科學家們將與年齡相關的語音變化視為一種障礙,而不是利用身份驗證者的優勢。此外,我們發現與音訊錄音的參與者的時間跨度和參與者數量相關的公共可用語料庫的顯著缺乏。與民用IT安全系統中使用的揚聲器驗證系統相比,我們還發現了適用於政府監控系統的說話人識別技術發展的重大偏見。

為了解決上述問題,我們建立了一個開放式專案,擁有最大的公共縱向演講者資料庫,其中包括229位發言者,平均通話時間超過15小時,平均每位發言人21年。我們組裝,清理和標準化錄音,並開發了用於語音特徵提取的軟體工具,我們將其釋放到公共領域。

索引術語:縱向語料庫,說話者驗證。

1.簡介

最近,說話者驗證系統越來越受歡迎,作為補充呼叫中心中其他驗證方法的認證因素之一。金融機構尤其需要強大的多因素身份驗證方法,因為它們可以線上與客戶進行互動並關閉當地分支機構[1]。快速改進的說話人驗證系統正在努力填補這一不斷增長的市場,商業報價正在不斷增加。然而,仔細觀察,聲音生物識別行業顯然只是將政府資助的說話人識別“黑匣子”技術重新用於民用。雖然研究人員經常使用說話人識別和驗證作為可互換的術語[2],但在考慮任務複雜性和預期錯誤率時,兩者之間存在明顯的區別。演講者驗證通過比較兩種語音模型來驗證身份宣告。然而,說話人識別涉及在資料庫中的所有發言者之間識別說話者的聲音,這需要更多的計算能力併產生更高的錯誤率。因此,這是一項更艱鉅的任務。雖然很難想象在民用用例中需要說話人識別能力,但與說話者驗證技術相比,明顯偏向於說話人識別技術。

通過關注監控技術特有的說話人識別挑戰,研究人員經常忽略語音生物識別的某些方面,這是民用認證系統的主要障礙。 語音老化就是其中之一。

在研究說話人驗證系統中的語音老化時,我們經常遇到使用付費牆資料集,不共享分析工具或施加限制性許可的研究。 本文及其相關資源試圖為縱向說話人驗證系統的進步奠定基礎,並圍繞此類系統建立一個開放的社群。 我們根據CC-BY-NC許可證提供所有資源,以鼓勵其他研究人員和公司為該專案做出貢獻。

2.藝術狀態

語音生物識別技術研究是許多領域中的一個,各國政府,特別是美國,一直在決定技術應用於民用案例的方向和程度。因此,語音生物識別研究的許多方面都被忽視或誤解。縱向說話者驗證是這些方面之一。在解決這個問題時,大多數研究人員只是指出,超過3 - 5年,老化對語音的影響會顯著增加等錯誤率(EER),並提出補償它的方法[3]。專門從事縱向說話人驗證的人傾向於使用校準和補償術語,從而使與年齡相關的語音變化成為不必要的負面含義[4]。

將年齡相關的語音變化視為說話者驗證中的問題是一個值得懷疑的安全性假設。這些變化是在所有人中觀察到的自然過程,並遵循一組相似的模式。研究人員經常忽略這樣一個事實,即找到可預測的語音變化模式不僅可以降低現實世界說話人驗證系統中的EER,還可以提高其對合成和重複攻擊的魯棒性[5]。

研究人員還假設攻擊者不僅具有相似或更高的分析工具和計算能力,而且還具有相同數量的資料。在現實世界中,即使是擁有海量資料收集程式的國家行為者支援的攻擊者也沒有像窄範圍語音身份驗證系統那樣多的乾淨且結構良好的縱向資料。美國國家安全域性舉報人威廉·賓尼和托馬斯·德雷克的證詞也表明,增加受監控人數會降低源材料的質量,導致識別特定個體的能力降低[6]。很明顯,在大多數民用用例中,驗證器在收集的音訊樣本方面具有顯著優勢,因此能夠建立對各種攻擊向量具有魯棒性的年齡感知說話者驗證模型。

應該注意的是,用於驗證的語音引數可能受到多種因素的影響,這些因素可能包括但不限於:說話者的性別,生理和心理狀況,聽力損失,疾病,藥物,吸菸等[7] ,8]。儘管研究人員指出了將衰老影響與其他影響因素分開的困難,但他們確實建立了年齡與語速,聲壓級以及基頻和共振頻率之間的相關性[8,9,10]。

例如,幼兒的語音訊率通常在500Hz和350Hz之間,而成年男性語音訊率在40歲之後小於130Hz並且在80歲之後大約150Hz。由此改變導致驗證問題。 縱向語音變化研究發現,在3 - 4年的時間間隔內語音音調變化會使說話人識別的效能降低40%,並且說話人識別系統的效能每1 - 2年降低約20%[30]。

研究人員觀察到說話的基本頻率下降,並且隨著年齡增長,聲音發作時間大大增加[11]。 儘管語音老化的許多特徵在個體之間共享,但也有證據表明,一些與年齡相關的變異可能不會遵循不同人的模式,而是由個體調整說話者聲道的生理變化引起的[10,12]。

3.資料收集

3.1。現有的縱向語料庫

研究人員經常將語料庫限制作為說話人識別和驗證研究的主要障礙[3,13]。現有的說話者驗證縱向語料庫通常取自三個來源之一:NIST說話人識別評估語料庫,廣播媒體內容或來自自願錄音的自建語料庫。

NIST說話人識別評估是美國政府資助的文字獨立說話人識別系統的挑戰。 NIST每兩年釋出一個語料庫,由多年來發言的大量人士組成。儘管NIST在發言人數量和所涵蓋的時間段方面都是一些規模最大的資料集,但它們的資料註釋不佳,錄音條件不一致以及演講者參與度都會受到影響。

選擇廣播,電視或其他廣播媒體的研究人員可以獲得結構良好的音訊片段,但他們經常會受到有限數量的媒體資料的影響。此外,這些媒體資料通常以各種條件和格式記錄,通常與其他發言者互相交談。

對縱向說話人驗證進行的最廣泛的研究涉及建立一個單獨的語料庫,其中包括跨越數十年的具有良好註釋的個人錄音。這種方法的主要缺點是它需要研究人員追溯性地收集高質量的音訊內容,這通常導致只獲得有限數量的揚聲器或縮短研究時間跨度。即使這種方法恰好成功,選擇構建自己的語料庫的研究人員也會面臨可擴充套件性限制。 RedDots和TCDSA的作者承認這些限制[3,14]。為了說明我們的觀點,我們建立了一個用於說話者驗證和語音老化研究的最流行語料庫的比較表。

3.2.LOCUST

3.2.1.FOIA請求

這些限制是我們搜尋新原始語料庫的動力。我們首先想到的是獲取最豐富的語音資料來源:美國的監控系統。我們的想法是使用資訊自由法案(FOIA)請求獲取必要的資料,如果釋出,這些資料將自動成為公共領域的一部分。 FOIA要求美國的任何聯邦機構將儲存的資訊傳送給任何提出要求的人。該立法同樣適用於具有調查權力的機構,如FBI和DEA,但有一些例外。鑑於美國監控計劃的強大功能,我們假設他們的資料庫包含構建詳盡語料庫所需的所有資訊。

聯絡了司法,財政部和國土安全部門共九個部門,以建立工作關係並協助提交正式的FOIA請求。然而,在第一批資料開始流入之後,顯然質量和質量差異很大註釋可能是進行任何有意義的科學研究的主要障礙。為了解決上述質量問題,我們決定將重點放在已經在公共領域的更好的結構化資料,以聯邦法院提供的證據形式。由於收集和儲存法庭案件材料的中央系統PACER的覆蓋面狹窄和技術限制,這種方法也變得徒勞無功。

3.2.2.US最高法院資料

在我們搜尋法庭案件資料期間,我們遇到了一個名為Oyez的結構良好的資料集。 這是一系列來自美國最高法院的錄音,並附有結構良好的成績單和詳細的發言人資訊。

如上所述,該資源主要由法律學者使用,包含大量音訊資料。更重要的是,由於美國法律制度的性質,許多發言者出現在幾十年的成績單中。對於終身任命,往往不退休,並參與法庭訴訟直至他們去世的最高法院法官來說尤其如此。它們也被記錄在類似的條件下,使用相似的 - 如果不是相同的 - 裝置隨著時間的推移,最小化通道效應。法庭訴訟的性質也有助於提高資料集的質量,最大限度地減少多個發言人同時講話或改變其與麥克風相關的位置的情況。均勻的錄音環境和最小的說話人重疊使得該語料庫對於研究與年齡相關的語音變化非常相關。

為了構建LOCUST語料庫,我們建立了軟體工具,允許我們自動下載所有音訊檔案,根據相應的成績單中的發言人將它們分成幾個部分,並進行各種語料庫清理程式。在清潔階段,我們遇到並修復了諸如低質量音訊,時間戳不一致,缺少資料以及揚聲器的外觀等問題,根據他們的維基百科頁面,他們已經死亡。所有收集的資料對於進一步研究都很有價值,但為了進行與語音老化相關的實驗,我們專注於清理和規範出現在至少十個不同會話中的發言者的資料。

3.2.3.Limitations

值得注意的是,在整理此資料集時,我們遇到了一些限制。一些早期的錄音是在20世紀50年代和60年代製作的,質量低,容量小,靜音噪音小。在音訊標準化階段,兩者都相對容易修復,包括將平均幅度調整到-20 dbFS,但仍然表明可以從這些記錄中提取的有用音訊功能可能很少。此外,通過將取樣率設定為16 kHz來標準化所有音訊檔案。除了低質量的音訊之外,還刪除了具有顯著揚聲器重疊的語句。我們正在繼續清理音訊檔案和構建工具以自動完成此過程。

對於簡短的語音陳述,我們發現了成績單和音訊之間的亞秒級時間戳不一致。通過在我們提取的每個語音語句中附加額外的第二個音訊來減輕這種情況。此外,我們注意到一些案例,當發言者顯然不是成績單中確定的那個。目前,我們手動刪除了這些語句,但我們計劃通過使用語音驗證系統進行進一步的語料庫清理,並仔細檢查超出特定概率閾值的任何語句。

最後,最高法院訴訟參與者大多是成熟的法官和律師,並且大多是年長的男性美國母語人士。在我們的選擇中,只有23位是女性,僅佔發言人總數的10%以上。

4.聲學特徵提取

通過選擇對會話間可變性穩健的聲學引數,可以容易地將說話人識別中的基礎科學工作應用於與文字無關的縱向說話者驗證。語音資料的魯棒特徵提取的一種比較流行的方法是梅爾頻率倒譜系數(MFCC)和相對頻譜變換 - 感知線性預測[15-18]。我們構建了python指令碼,允許我們從每個音訊段中提取語音功能,並建立相應的MFCC和PLP-RASTA檔案。在執行特徵提取時,音訊檔案被分成25毫秒的幀,重疊偏移為15毫秒。

去噪和標準化也被認為是說話者驗證系統的重要部分。我們已經在清理語料庫時執行了平均幅度歸一化,但期望在分析階段進行去噪。由於有大量的音訊片段,我們的目標是建立強大的噪聲模型,不僅基於我們正在研究的發言者的陳述,而且還基於參與同一法庭會議的其他人,但不包括在最終選擇的由於罕見的外表,229位發言者。

5.進一步的研究

說話人識別是情報機構的敏感話題。我們堅信,密切相關的演講者驗證的前進方向是從開始到結束的開放式研究過程。研究人員似乎正處於說話人識別技術的軍備競賽中,他們創造了競爭系統,以便在缺乏透明度且對民用系統具有可疑適用性的挑戰中得分更高。我們的方法將基於與整個行業的開放式合作。我們計劃使用C-SPAN視訊擴充套件資料集,根據收集的資料執行深度分析,並建立說話人驗證系統的開源原型。

我們也希望資料和相關工具可能對其他語音研究分支有用。雖然我們迄今為止專注於聲學語音特徵,但我們保留了所有原始的成績單,這將使科學家能夠對我們的語料庫進行文字相關分析。法庭訴訟也為研究其他科目提供了獨特的機會,例如情感識別[19]或謊言檢測。根據法庭案件結果的成績單和相關元資料,兩者都相對容易註釋。

我們想邀請其他研究人員和公司加入我們的GitLab專案[20]。通過語音,我們獲得了一個強大的前向保密簽名機制,其中包含難以竊取的私鑰。我們不能忽視它。

6。結論

我們發現現有的資料集是用於推進說話人識別技術的,這種技術最常用於情報機構,但對於開發民用說話人驗證系統的效用往往有限。為了解決這個問題,我們建立了一個開放式專案,擁有最大的公共縱向揚聲器資料庫,其中包括229個揚聲器,平均通話時間超過15小時,平均每個揚聲器21年。除此之外,我們還收集了超過8,000人的其他錄音,同時錄製,在相同條件下,並使用相同的裝置。我們相信這將大大簡化構建音訊通道模型和對目標揚聲器音訊進行去噪的任務。在我們的語料庫中可以輕鬆觀察到的與年齡相關的語音變化將能夠建立更強大的語音驗證方法。這可以幫助語音驗證系統的早期採用者,例如呼叫中心和監獄系統,它們開始面臨語音老化。

我們提出了一個用於收集,處理,分析和比較資料集的開放式專案框架。目前,我們的財團由來自三所大學和兩家IT安全公司的科學家組成,他們在一個共同的開放式GitLab專案下共同工作,並在許可的許可下共享所有內部開發的工具。