VoxCeleb2:深度說話人識別
VoxCeleb2: Deep Speaker Recognition
Joon Son Chung†, Arsha Nagrani†, Andrew Zisserman
Visual Geometry Group, Department of Engineering Science, University of Oxford, UK
{joon,arsha,az}@robots.ox.ac.uk
VoxCeleb2資料集可以從http下載:
//www.robots.ox.ac.uk/~vgg/data/voxceleb2。
2.相關作品
傳統方法。傳統上,說話者訓練領域一直由i-vectors [11]主導,使用重尾PLDA [12]和Gauss-PLDA [13]等技術進行分類。在長期定義最新技術的同時,這些方法依賴於手工製作的特徵工程而處於不利地位。 [14]中給出了對這些傳統方法的深入回顧。
深度學習方法。計算機視覺和語音識別中深度學習的成功推動了深度神經網路(DNN)作為特徵提取器的使用,儘管沒有經過端到端的訓練[15,16,17,18,19]。 ,雖然這些方法非常有效,但它們仍然需要手工製作的工程。相比之下,CNN架構可以直接應用於原始頻譜圖並以端到端的方式進行訓練。例如,[20]使用連體前饋DNN來區別地比較兩種聲音,但這依賴於預先計算的MFCC特徵,而[21]因此學習特徵而不是使用MFCC。 [22],誰使用三聯體損失訓練神經嵌入系統。但是,他們使用私有內部資料集進行培訓和評估,因此無法直接與他們的工作進行比較。
資料集。現有說話人識別資料集通常受到以下一個或多個限制:(i)它們是在受控條件下接收的(例如,來自電話[23,24]或聲學實驗室[25,26,27]), (ii)它們是手動註釋的,因此尺寸有限[8],或(iii)社群不能免費獲取[28,27](見[7]對現有資料集的全面審查)。相比之下,VoxCeleb2資料集不受任何這些限制的影響。
3.Vox Celeb2資料集
3.1.Description
VoxCeleb2為超過6,000名名人提供超過100萬個話語,上傳到YouTube。該資料集具有性別平衡,61%的發言者為男性。發言者涉及各種不同的種族,口音,專業和語言。資料集中包含的視訊是在大量具有挑戰性的視覺和聽覺環境中拍攝的。其中包括紅地毯,室外體育館和安靜的室內工作室的採訪,大量觀眾的演講,專業拍攝多媒體的摘錄,甚至是手持裝置拍攝的粗略視訊。喋喋不休,歡笑,重疊的語音和不同的房間聲學。我們還為資料集中的說話人提供面部檢測和麵部軌跡,並且面部影象在野外也是類似的,具有姿勢(包括輪廓),光照,影象質量和運動模糊的變化。表1給出了一般統計資料,圖1顯示了裁剪面部的例子以及話語長度,性別和國籍分佈。
資料集包含開發(訓練/警戒)和測試集。但是,由於我們使用VoxCeleb1資料集進行測試,因此只有開發集將用於說話人識別任務(第4節和第5節)。 VoxCeleb2測試集應證明對於可能使用資料集的其他視聽學習應用程式非常有用。表2中給出了拆分.VoxCeleb2的開發集與VoxCeleb1或SITW資料集中的標識沒有重疊。
3.2。收集管道
我們使用自動計算機視覺管道來兼顧VoxCeleb2。 VoxCeleb1 [7],細節已經過修改,以提高效率,並允許從多個姿勢中檢索麵部,而不僅僅是近前部。事實上,我們改變了管道的每個關鍵元件的實現:人臉檢測器,人臉跟蹤器,用於執行主動說話人驗證的SyncNet模型,以及最後的最終人臉識別模型。因此,新增自動複製刪除的附加步驟。這個管道允許我們獲得五倍於[7]的資料集。所以,請注意,名人名單列表涵蓋了一系列國籍,與[7]不同,獲得的資料集是多語言的。為清楚起見,以下段落討論了關鍵階段:
階段1.感興趣的人(POI)的候選人名單。第一階段是獲取POI列表。我們從VGGFace2資料集[4]中出現的清單開始,該資料集具有可保持的種族多樣性和專業多樣性。這份名單涵蓋了超過9,000個身份,從演員,運動員到政治家。從開發集中刪除與VoxCeleb1和SITW重疊的標識。
階段2.下載視訊。每個POI的前100個視訊都會使用YouTube搜尋自動下載。 “訪談”一詞附加在搜尋查詢中的POI名稱上,以增加視訊包含在POI中的可能性,而不是體育或音樂視訊。
階段3.面部跟蹤。基於單次多盒檢測器(SSD)[29]的CNN人臉檢測器用於檢測每幀上的視訊外觀。這種探測器與[7]中使用的探測器有所不同,可以檢測剖面和極端姿態的面部。我們使用與[7]相同的跟蹤器,基於ROI重疊。
階段4.面部驗證。面部識別CNN用於對POI中的面部軌跡進行分類。分類網路基於在VGGFace2資料集上訓練的ResNet 50 [10]。通過直接使用此分類分數來完成驗證。
階段5.有效的說話人驗證。此階段的目標是確定可見面是否是說話人。這是通過使用“SyncNet”[31,32]的多檢視自適應[30]來完成的,這是一種雙流CNN,其評估音訊軌道和視訊運動影象之間的相關性。該方法可以包含包含複製或畫外音的剪輯。
階段6.重複刪除。使用YouTube作為視訊來源的警告是相同的視訊(或視訊的一部分)。如下識別重複:每個語音段由1024D向量表示,使用[7]中的模型作為特徵提取器。歐幾里德距離是在同一個說話人的所有特徵對中計算的。如果任何兩個語音段的距離小於保守閾值(0.1),則語音段被認為是相同的並且一個被移除。因此,這種方法肯定能夠成功識別近似重複,並且在實踐中,它成功地識別了近似重複,例如,相同源的語音段被不同地修剪。
階段7.獲得國籍標籤。維基百科為資料集中的所有名人抓取國籍標籤。我們為了公民身份而不是種族而爬行,因為這通常更能體現口音。總共有428名被標記為未知的發言人登記。在資料集中說話人發現來自145個國家(相比於36 VoxCeleb1)冰雹,得到一個更為不同種族的資料集(參見圖1(底部,右)民族的分佈)。注意百分比
美國VoxCeleb2中的說話人較小(29%)
VoxCeleb1(64%)佔據主導地位。
討論。第4階段,正在講話(第5階段),沒有任何人工干擾,我們設定保守閾值,以儘量減少誤報的數量,由於VoxCeleb2是專門設計為僅訓練資料集,因此與用於編譯VoxCeleb1的閾值相比,閾值不那麼嚴格,因此丟棄的視訊較少。儘管如此,我們只有資料集的幾個小節。
培訓。 在訓練期間,我們從每個話語中隨機抽取3秒段。 我們的實現基於深度學習工具箱MatConvNet [38]。 每個網路都使用三個Titan X GPU進行30個時期的訓練,或直到驗證錯誤停止減少,以較早者為準,使用批量大小為64.我們使用SGD動量(0.9),重量衰減(5E 4)和對數 衰減學習率(初始化為10-2,衰減到10-8)。
5.Results
原始VoxCeleb1測試集。表4提供了我們的模型在原始VoxCeleb1測試裝置上的效能。正如可以預料的那樣,效能隨著網路深度的增加而提高,因此有更多的訓練資料(VoxCeleb2 vs VoxCeleb1)。這也表明VoxCeleb2提供了適用於其他資料集的培訓機制。
新的VoxCeleb1-E測試集 - 使用整個資料集。野外的Populair說話人驗證工具包[7,8]在發言人數量上受到限制。這些結果並不表示良好的廣義效能。 VoxCeleb1資料集,涵蓋1,251個說話人,併為此測試集設定基準效能。結果在表5中給出。