1. 程式人生 > >THCHS-30:一個免費的中文語料庫

THCHS-30:一個免費的中文語料庫

摘要和第一部分是介紹目前語音識別開源語音庫的現狀,包括英文和中文的,由此引出來THCHS-30語料庫。都是一些無關痛癢的介紹,所以不做翻譯了。

以下是正式翻譯:

2 THCHS-30的特點

這部分我們介紹THCHS-30語音庫。這個資料庫是在2000-2001年記錄的,第一個作者是Prof.Xiaoyan Zhu的一個研究生。這個語音庫設計的目的是作為863資料庫的補充,儘可能提高中文發音的涵蓋率。這個新資料庫叫TCMSD(清華大學連續普通話資料庫),而且變得 更加開放。。我們15年前釋出了這個資料庫,其所有權為Prof.Zhu。後來又更名為THCHS-30,代表清華大學30小時中文語音庫。THUYG-30也用了相同的命名規則,這個資料庫將會在不就釋出。

2.1 語音訊號

THCHS-30是在安靜的辦公室環境下,通過單個碳粒麥克風錄取的,總時長超過30個小時。大部分參與錄音的人員是會說流利普通話的大學生。取樣頻率16kHz,取樣大小16bits。

THCHS-30的文字選取自大容量的新聞,目的是為了擴充863語音庫。我們選取1000句來錄音。表1展示了雙音素和三音素的涵蓋率,從表中可以看出來THCHS-30的確提高了863資料庫的發音涵蓋率。

這些錄音根據其文字內容分成了四部分,A(句子的ID是1~250),B(句子的ID是251~500),C(501~750),D(751~1000)。ABC三組包括30個人的10893句發音,用來做訓練,D包括10個人的2496句發音,用來做測試。詳細資訊如下表:


2.2 附加資源

為了幫助構建一個實用的中文ASR系統,一些附加的資源也隨著THCHS-30釋出了。這些資源包括髮音詞典,語言模型,訓練方法和一些其他有用的工具。另外還有一些噪聲條件下的語音可供使用。

2.2.1 Lexicon 和 LM(發聲詞典和語言模型)

我們釋出了兩個語言模型和配套的發聲詞典。基於詞彙的LM包括48k個詞彙,而且是基於三音素的。詞彙LM的訓練用的是一個從中文Gigaword語料庫中隨機選取的文字集合,訓練內容包括772000個句子,總計一千八百萬個詞彙,一億一千五百萬個漢字。phone LM用了一個比較小的、包括兩百萬字元的資料集做訓練。用一個小的文字資料做訓練是因為我們想盡可能少的保留語言資訊,這樣結果的效能就直接與聲學模型的質量有關了。這兩種LM用SRILM來訓練。

2.2.2 指令碼和方法

一些方法和有用的指令碼也被公佈出來,以便用THCHS-30訓練一個完整的中文語音識別系統。這些指令碼基於kaldi工具箱。訓練的過程類似於kaldi例子中的wsj S5 GPU,儘管這個例子為了適合做中文識別而做出了一些改變。

2.2.3 噪聲資料

我們也對噪聲環境下的語音識別很感興趣,因此,提供了一個噪聲版本的THCHS-30:所有訓練和測試的資料加上了白噪聲,汽車噪聲和咖啡館噪聲。我們致力於研究0dB噪聲環境下的語音,因為這種條件下,噪聲和語音的能量相等,也就是很吵。噪聲的加入是通過簡單的波形混合。

2.3 尋求挑戰

由於THCHS-30是免費公開的,每個人都可以下載,建立他們自己的系統。為了鼓勵研究,我們基於所提供的資源尋求挑戰,主要包括兩個任務:大詞彙量識別和phone recognition。雖然前者更接近實用,但是後者有利於用更集中的方式去研究聲學模型的方法。對於每個任務,我們都是在含噪語音的資料庫下來比較效能。

3 基線系統

我們在THCHS-30上來描述基線系統。在競爭中我們來探討這個基線系統的結果;任何人的結果只要有改善,我們就會將其公佈在競賽網站上。

3.1 框架和設定


我們用kaldi工具箱來訓練HMM-DNN混合聲學模型。系統的架構如上圖。根據這個架構,單因素GMM系統首先被訓練。所用的是標準的13維MFCC特徵加上一階和二階的衍生物。為了減少通道的影響,需要使用倒譜均值歸一化。然後,基於單音素系統,通過LDA和MLLT進行特徵轉換來構建三音素GMM系統。最後的GMM系統用來產生正式的佇列資料,這些資料將會在後面的DNN 訓練中用到。

基於GMM系統提供的佇列資料,我們來進行DNN系統的訓練,特徵是40維的Fbanks特徵,相鄰的幀通過一個幀長為11 的窗進行串聯,串聯的特徵被LDA轉化,減少為200維。然後應用一個全域性的期望和方差來獲得DNN的輸入。DNN的由4個隱含層組成,每個隱含層包括1200個單元。輸出層由3386個單元組成。基線DNN模型通過交叉熵的規則來進行訓練。隨機梯度法(SGD)用來進行效能優化。最小批量處理設定為256幀,最初的學習率設定為0.008。基線MPE模型在基線DNN模型的基礎上進行訓練。

3.2初步結果

在純淨語音資料下,DNN系統和MPE系統的效能如下表,其中詞彙識別的評價標準是字錯率(CER),音素識別的評價標準是音素錯誤率(PER)。表中的結果包括純淨語音和0dB帶噪語音。可以看出,含噪語音的識別率明顯低於純淨語音,尤其是噪聲型別為白噪聲。注意到CER和PER與其他標準語音庫相比是相當高的,即使是在純淨語音下。通常認為這是資料異常造成的:為了尋找到涵蓋儘可能多的發音,THCHS-30 的句子包含一些奇怪特殊的發音和拼寫。這讓識別任務變的更加難。


3.3 DAE法噪聲消除

現在純淨語音識別還雲裡霧裡裡,這部分就先不翻譯了,前段時間用一種方法改進了IMCRA演算法,效果還不錯,先將就著用吧。

4 總結

本文主要介紹了一個免費的開源中文語音識別資料庫,附帶的一些資源也做出了說明,例如語典,LM,和一些訓練方法。這個語音庫是第一個免費的中文語音庫,我們希望能夠促進語音識別的研究,鼓勵更多年輕的研究者投入到這個領域,我們也尋求挑戰,希望能夠精誠合作,祈求創新。