世界最大的多語言語音資料集現已開源：超 40 萬小時，共 23 種語言

阿新 • • 發佈：2021-08-06

最近，Facebook 開源了目前世界上最大的多語言語音資料集，VoxPopuli：

這一資料集共涵蓋了 23 種語言，時長超過 40 萬小時。

其中，每種語言都有 9000 到 18000 小時的無標籤語音資料。

此外，還包括了共 1800 小時，16 種語言的轉錄語音資料，以及 17300 小時，15 種目標語言的口譯語音資料。

國外網友很快為這一行為點贊：

顯然，如果資料集已經存在，那麼它應該被利用，並以一種道德的方式來改善人類社會。

這一資料集龐大的無標籤資料量和廣泛的語言覆蓋率，對改進自監督模型有著很大的幫助。

而 Facebook 也希望能夠幫助提高語音資料集的質量和魯棒性，使訓練語音轉換神經網路更加可靠。

最終加速新的 NLP 系統的開發，使 AI 翻譯的效果越來越好。

而資料集的名字，VoxPopuli 的直譯“人民的心聲”也表示了其原始資料的來源 ——

即源語音全都收集自 2009-2020 年歐洲議會的活動錄音。

來自 10 年歐會的語料庫

在歐洲議會的各自活動，如全體會議、委員會會議和其他活動上，發言者都會以不同的歐盟語言輪流發表演講。

Facebook 就是從歐會官網上抓取了每個演講的文字記錄、演講者資訊、開始/結束時間戳。

然後，將所有的原始演講資料進行處理，大致分為以下 3 類：

共 40 萬小時，23 種語言的無標籤語音資料

每種語言都有 8 千到 2 萬多的原始語音資料。

因此，Facebook 基於能量的語音啟用檢測（VAD）演算法，將完整音訊分割成 15-30 秒的短片段。

最終得到沒有太多的資料不平衡，也不需要調整資料取樣策略的資料集。

因此非常適合多語言模型的訓練。

而上表中除了無標籤資料，也有轉錄的語音資料，這也就是第二種：

共 1800 小時，16 種語言的轉錄語音資料。

歐會官方的時間戳雖然可以用來在會議中定義演講者，但常常會被截斷，或混合前後演講的片段，因此並不完全準確。

所以 Facebook 對全會話音訊採用了聲紋分割聚類（SD）。

這時的語音段落平均時長為 197 秒，再利用語音識別（ASR）系統，將其細分為 20 秒左右的短片段。

觀察上表，可以看到最終得到的資料中，有包括各語言的持續時間、發言人數量、女性發言人百分比、標記數量等多種屬性。

17300 小時的 15 種目標語言的口譯語音資料：

每個原始語音都有相對應的同聲傳譯，並互相關聯。

但要使這個資料集可用，必須經過大量的預處理和過濾。

因此，Facebook 使用了語音識別（ASR）系統在句子層面上對齊源語音和目標語音。

在域外環境的半監督學習下具有通用性

那麼這一資料集用起來到底怎麼樣？

首先，是使用包含了域外語言（out-of-domain out-of-language）的無監督預訓練，進行少樣本的語音識別：

可以從表中看到，VP-Mono5K 在 5 種 VoxPopuli 語言上，都優於 XLSR-Mono 和 XLSR-10。

而 VP-100K 則在 10 種語言中的 8 種上的都比 XLSR-10 的表現更好。

並且，雖然 XLSR-53 涵蓋了 Zh 語言，但與 VP-100K（Large）在 Zh 上的表現相距甚遠。

這表明 VP-100K 所學的語音表徵具有高度的通用性。

然後是使用 VoxPopuli 資料集進行自我訓練或弱監督的語言翻譯（ST）和語音識別（ASR）：

從表中可以看到，不管是對於域內語言還是域外語言，對 VoxPopuli 的自我訓練在大多數時候都能夠提高效能。

而在翻譯上，也不用再增加昂貴的標籤資料。

通過自我訓練，就能夠縮小端到端模型和級聯模型之間的差距。

論文地址：

https://arxiv.org/abs/2101.00390

下載：

https://github.com/facebookresearch/voxpopuli

參考連結：

[1]https://www.reddit.com/r/MachineLearning/comments/owll7g/n_facebook_ai_releases_voxpopuli_a_largescale/

[2]https://www.marktechpost.com/2021/08/02/facebook-ai-releases-voxpopuli-a-large-scale-open-multilingual-speech-corpus-for-ai-translations-in-nlp-systems/

世界最大的多語言語音資料集現已開源：超 40 萬小時，共 23 種語言

最近，Facebook 開源了目前世界上最大的多語言語音資料集，VoxPopuli：這一資料集共涵蓋了 23 種語言，時長超過 40 萬小時。

[轉]開源語音資料集

ASR 測試集本文為CSDN博主「chenghaoy」的原創文章, 原文連結：https://blog.csdn.net/chenghaoy/article/details/82842151

Mozilla 開源語音資料集已擁有超兩萬小時內容，新增支援粵語、閩南語

5 月 1 日訊息，本週早些時候，Mozilla 宣佈其 Common Voice 資料集現在包含超過 20000 小時的內容，世界各地的任何人都可以使用這些內容來改進他們的語音識別軟體，幾乎是一年前的兩倍。瞭解到，最新的英語資料集有

win10下用yolov3訓練WiderFace資料集來實現人臉檢測（TensorFlow版本，darkface作為測試集）

技術標籤：人臉檢測資料集準備工作訓練集 Wider Face格式轉換下載人臉資料集wider face，解壓到同一個資料夾下在同一個目錄下，新建convert.py檔案（把下面程式放入）執行程式得到影象和其對應的xml檔案。

世界“最強”潮汐發電機 Orbital O2 開始運作：2 兆瓦功率，重 680 噸

8 月 1 日訊息據外媒 electrek 訊息，當今世界“最強”的潮汐發電機 Orbital O2 已經在蘇格蘭奧克尼“Orkney”附近開始運轉，進行併網發電。這一海上發電站由 Orbital Marine Power 公司製造，是該公司的首款產品，

再次突破極限！豪威釋出世界最小 0.56μm 畫素技術：臺積電 28nm 工藝，將用於 2 億畫素影象感測器

2 月 17 日訊息，豪威科技在 1 月份釋出了畫素尺寸為 0.61μm 的 2 億畫素解析度影象感測器 OVB0B，用於智慧手機相機。2 月 15 日，豪威宣佈了更進一步的突破，實現了世界最小 0.56μm畫素技術，同時豪威研發團隊已

世界最大單機潮流能發電機組成功下水：額定功率 1.6 兆瓦，將併入國家電網

感謝網友情繫半生nh 的線索投遞！

國內最大“十元店”上市！市值或超百億美元，騰訊是股東之一

2004年，一個叫“哎呀呀”的飾品店成為當時最具有品牌認知度的十元店。隨後，“哎呀呀”升級成了名創優品，還有了個洋氣的日文名字叫MINISO。所以，名創優品的前身就是“哎呀呀”，兩者的創始人都是湖北人

Jeff Dean強推：視覺化Bert網路，發掘其中的語言、語法樹與幾何學

大資料文摘出品來源：pair-code.github 作者：Andy Coenen等編譯：劉佳瑋、萬如苑、龍心塵

go語言生成自定義uuid_由淺入深：一個簡單的例子，讓你吃透Go語言自定義的包管理...

技術標籤：go語言生成自定義uuid 前言首先使用hello world，演示Go的包是如何匯入的。

中國移動國際公司德國資料中心正式啟用：9 層安保控制，提供 12 分鐘備份

2月1日訊息據央視新聞報道，中國移動國際公司德國資料中心於近期正式啟用，這是中國移動國際公司全球佈局的重要國際通訊樞紐節點，它既是國際網路交換中心，又是國際網際網路資料中心，進一步拓展了中國移動國際公司

影馳 RTX 3090 HOF 名人堂顯示卡液氮超頻達 3GHz，共打破 16 項世界紀錄

2月3日訊息影馳於 2 月 1 日釋出了 RTX 3090 HOF 名人堂系列顯示卡，採用頂級的做工、用料，專門為超頻玩家設計，預設加速頻率高達 1905MHz。據外媒 techpowerup 訊息，有國外玩家使用這款顯示卡，搭配液氮散熱，顯示

國內最大盾構機將下井：直徑 15.53 米，用於深圳媽灣海底隧道建設

3月13日訊息根據南方都市報訊息，我國目前最大的盾構機即將下井開啟掘進工作，該盾構機將用於深圳首條海底隧道——媽灣跨海通道建設。南方都市報記者 3 月 11 日瞭解到，直徑 15.53 米的盾構機刀盤已經在現場拼接完成

詩意遊戲《地球上最長的路》上線 Steam 平臺：黑白畫素畫風，支援中文

3月28日訊息黑白畫素風冒險遊戲《地球上最長的路》目前已在 Steam 平臺上線，將於 2021 年發售，遊戲支援簡體中文。

全年播放超 40 億次，西瓜視訊釋出趕海資料報告

6 月 24 日訊息西瓜視訊“中視訊夥伴分享會”在青島舉行，這次分享會以“趕海”為主題，介紹了來自山東、福建的幾位趕海視訊內容創作者的故事，分享會上，西瓜視訊還發布了《趕海大資料報告》，根據這份報告，在過

龍芯 3A5000 採用完全自主指令集架構 LoongArch：單核效能提升 50%，功耗降低 30%

6 月 28 日訊息從龍芯中科獲悉，6 月 22 日至 6 月 26 日，龍芯萬里行・貴陽站成功舉辦。據介紹，2021 年，龍芯中科推出完全自主指令集架構 ——LoongArch。龍芯 3A5000 採用最新的 LoongArch 指令集架構，單核效能

2021位元組跳動校招秋招演算法面試真題解題報告--leetcode148 排序連結串列，內含7種語言答案

148.排序連結串列 1.題目描述在 O(n log n) 時間複雜度和常數級空間複雜度下，對連結串列進行排序

2021位元組跳動校招秋招演算法面試真題解題報告--leetcode206 反轉連結串列，內含7種語言答案

206.反轉連結串列 1.題目描述反轉一個單鏈表。示例:輸入: 1->2->3->4->5->NULL輸出: 5->4->3->2->1->NULL進階:你可以迭代或遞迴地反轉連結串列。你能否用兩種方法解決這道題？

FMC子卡模組設計資料第272篇：1路萬兆光纖SFP+和1路千兆網路 FMC子卡模組

該板卡是基於kc705和ml605的fmc 10g萬兆光纖擴充套件板設計，提供了1路萬兆光纖SFP+和1路千兆網路介面。

水晶球“資料洞察”正式上線：洞悉用量趨勢變化，覺察互動體驗細節

聲網“水晶球”是聲網基於實時通訊全鏈路資料，提供的全週期質量監測、回溯的自主資料分析工具，可以幫開發者及時發現問題，定位原因，並高效解決問題，以提升客戶的運營效率和使用者的體驗。

世界最大的多語言語音資料集現已開源：超 40 萬小時，共 23 種語言

來自 10 年歐會的語料庫

在域外環境的半監督學習下具有通用性

相關推薦