1. 程式人生 > 資訊 >Mozilla 開源語音資料集已擁有超兩萬小時內容,新增支援粵語、閩南語

Mozilla 開源語音資料集已擁有超兩萬小時內容,新增支援粵語、閩南語

5 月 1 日訊息,本週早些時候,Mozilla 宣佈其 Common Voice 資料集現在包含超過 20000 小時的內容,世界各地的任何人都可以使用這些內容來改進他們的語音識別軟體,幾乎是一年前的兩倍。

瞭解到,最新的英語資料集有 71 GB,支援的語言也比以往任何時候都多,增加了蒂格雷語、閩南語、Meadow Mari、孟加拉語、道本語和粵語

根據 Mozilla 的說法,Common Voice 專案允許任何人為專案貢獻自己的聲音,從而讓虛擬助手能夠理解更多的口音。此外,Common Voice 專案是開源的,可確保大型科技公司無法獨佔,為小型開發商和公司提供了構建競爭產品和服務的機會。

Mozilla 在最新資料集版本中指出的亮點如下:

  • 6 種新語言:蒂格雷語、閩南語、Meadow Mari、孟加拉語、道本語和粵語。

  • 27 種語言至少有 100 小時的語音資料,包括孟加拉語、泰語、巴斯克語和弗里斯蘭語。

  • 9 種語言至少有 500 小時的語音資料,包括基尼亞盧安達語(2383 小時)、加泰羅尼亞語(2045 小時)和斯瓦希里語(719 小時)。

  • 9 種語言有至少 45% 的性別標籤為女性,包括馬拉地語、迪維希語和盧幹達語。