世界最大的多語言語音資料集現已開源:超 40 萬小時,共 23 種語言
最近,Facebook 開源了目前世界上最大的多語言語音資料集,VoxPopuli:
這一資料集共涵蓋了 23 種語言,時長超過 40 萬小時。
其中,每種語言都有 9000 到 18000 小時的無標籤語音資料。
此外,還包括了共 1800 小時,16 種語言的轉錄語音資料,以及 17300 小時,15 種目標語言的口譯語音資料。
國外網友很快為這一行為點贊:
顯然,如果資料集已經存在,那麼它應該被利用,並以一種道德的方式來改善人類社會。
這一資料集龐大的無標籤資料量和廣泛的語言覆蓋率,對改進自監督模型有著很大的幫助。
而 Facebook 也希望能夠幫助提高語音資料集的質量和魯棒性,使訓練語音轉換神經網路更加可靠。
最終加速新的 NLP 系統的開發,使 AI 翻譯的效果越來越好。
而資料集的名字,VoxPopuli 的直譯“人民的心聲”也表示了其原始資料的來源 ——
即源語音全都收集自 2009-2020 年歐洲議會的活動錄音。
來自 10 年歐會的語料庫
在歐洲議會的各自活動,如全體會議、委員會會議和其他活動上,發言者都會以不同的歐盟語言輪流發表演講。
Facebook 就是從歐會官網上抓取了每個演講的文字記錄、演講者資訊、開始/結束時間戳。
然後,將所有的原始演講資料進行處理,大致分為以下 3 類:
共 40 萬小時,23 種語言的無標籤語音資料
每種語言都有 8 千到 2 萬多的原始語音資料。
因此,Facebook 基於能量的語音啟用檢測(VAD)演算法,將完整音訊分割成 15-30 秒的短片段。
最終得到沒有太多的資料不平衡,也不需要調整資料取樣策略的資料集。
因此非常適合多語言模型的訓練。
而上表中除了無標籤資料,也有轉錄的語音資料,這也就是第二種:
共 1800 小時,16 種語言的轉錄語音資料。
歐會官方的時間戳雖然可以用來在會議中定義演講者,但常常會被截斷,或混合前後演講的片段,因此並不完全準確。
所以 Facebook 對全會話音訊採用了聲紋分割聚類(SD)。
這時的語音段落平均時長為 197 秒,再利用語音識別(ASR)系統,將其細分為 20 秒左右的短片段。
觀察上表,可以看到最終得到的資料中,有包括各語言的持續時間、發言人數量、女性發言人百分比、標記數量等多種屬性。
17300 小時的 15 種目標語言的口譯語音資料:
每個原始語音都有相對應的同聲傳譯,並互相關聯。
但要使這個資料集可用,必須經過大量的預處理和過濾。
因此,Facebook 使用了語音識別(ASR)系統在句子層面上對齊源語音和目標語音。
在域外環境的半監督學習下具有通用性
那麼這一資料集用起來到底怎麼樣?
首先,是使用包含了域外語言(out-of-domain out-of-language)的無監督預訓練,進行少樣本的語音識別:
可以從表中看到,VP-Mono5K 在 5 種 VoxPopuli 語言上,都優於 XLSR-Mono 和 XLSR-10。
而 VP-100K 則在 10 種語言中的 8 種上的都比 XLSR-10 的表現更好。
並且,雖然 XLSR-53 涵蓋了 Zh 語言,但與 VP-100K(Large)在 Zh 上的表現相距甚遠。
這表明 VP-100K 所學的語音表徵具有高度的通用性。
然後是使用 VoxPopuli 資料集進行自我訓練或弱監督的語言翻譯(ST)和語音識別(ASR):
從表中可以看到,不管是對於域內語言還是域外語言,對 VoxPopuli 的自我訓練在大多數時候都能夠提高效能。
而在翻譯上,也不用再增加昂貴的標籤資料。
通過自我訓練,就能夠縮小端到端模型和級聯模型之間的差距。
論文地址:
https://arxiv.org/abs/2101.00390
下載:
https://github.com/facebookresearch/voxpopuli
參考連結:
[1]https://www.reddit.com/r/MachineLearning/comments/owll7g/n_facebook_ai_releases_voxpopuli_a_largescale/
[2]https://www.marktechpost.com/2021/08/02/facebook-ai-releases-voxpopuli-a-large-scale-open-multilingual-speech-corpus-for-ai-translations-in-nlp-systems/