[轉]開源語音資料集
本文為CSDN博主「chenghaoy」的原創文章, 原文連結:https://blog.csdn.net/chenghaoy/article/details/82842151
英文資料集:
1.LibriSpeech ASR corpus:該資料集是包含大約1000小時的英語語音的大型語料庫。這些資料來自LibriVox專案的有聲讀物。它已被分割並正確對齊,如果你正在尋找一個起點,請檢視已準備好的聲學模型,這些模型在kaldi-asr.org和語言模型上進行了訓練,適合評估。
https://www.openslr.org/12
Mini LibriSpeech ASR corpus:用於迴歸測試的一個子集 http://www.openslr.org/31/
2.TED-LIUM:http://www.openslr.org/7/
TED-LIUMv2:http://www.openslr.org/19/
TED-LIUM Release 3:https://www.openslr.org/51/
3.VoxForge:該資料集是帶口音的語音清潔資料集,對測試模型在不同重音或語調下的魯棒性非常有用。
http://www.voxforge.org/
https://voice.mozilla.org/zh-CN/data
4.TIMIT資料集 百度雲連結:https://pan.baidu.com/s/1YJNIFdBiSPqebTq_GyOdog 密碼:sqw7
5.Free ST American English Corpus:
中文資料集
1、THCHS-30
THCHS-30是在安靜的辦公室環境下,通過單個碳粒麥克風錄取的,總時長超過30個小時。大部分參與錄音的人員是會說流利普通話的大學生。取樣頻率16kHz,取樣大小16bits。
THCHS-30的文字選取自大容量的新聞,目的是為了擴充863語音庫。我們選取1000句來錄音。
連結:http://www.openslr.org/18/
2、Aishell
Aishell is an open-source Chinese Mandarin speech corpus published by Beijing Shell Shell Technology Co.,Ltd.
400 people from different accent areas in China are invited to participate in the recording, which is conducted in a quiet indoor environment using high fidelity microphone and downsampled to 16kHz. The manual transcription accuracy is above 95%, through professional speech annotation and strict quality inspection. The data is free for academic use. We hope to provide moderate amount of data for new researchers in the field of speech recognition.
希爾貝殼中文普通話開源語音資料庫AISHELL-ASR0009-OS1錄音時長178小時,是希爾貝殼中文普通話語音資料庫AISHELL-ASR0009的一部分。AISHELL-ASR0009錄音文字涉及智慧家居、無人駕駛、工業生產等11個領域。錄製過程在安靜室內環境中, 同時使用3種不同裝置: 高保真麥克風(44.1kHz,16-bit);Android系統手機(16kHz,16-bit);iOS系統手機(16kHz,16-bit)。高保真麥克風錄製的音訊降取樣為16kHz,用於製作AISHELL-ASR0009-OS1。400名來自中國不同口音區域的發言人參與錄製。經過專業語音校對人員轉寫標註,並通過嚴格質量檢驗,此資料庫文字正確率在95%以上。分為訓練集、開發集、測試集。
連結:
3、Aishell2
希爾貝殼中文普通話語音資料庫AISHELL-2的語音時長為1000小時,其中718小時來自AISHELL-ASR0009-[ZH-CN],282小時來自AISHELL-ASR0010-[ZH-CN]。錄音文字涉及喚醒詞、語音控制詞、智慧家居、無人駕駛、工業生產等12個領域。錄製過程在安靜室內環境中, 同時使用3種不同裝置: 高保真麥克風(44.1kHz,16bit);Android系統手機(16kHz,16bit);iOS系統手機(16kHz,16bit)。AISHELL-2採用iOS系統手機錄製的語音資料。1991名來自中國不同口音區域的發言人參與錄製。經過專業語音校對人員轉寫標註,並通過嚴格質量檢驗,此資料庫文字正確率在96%以上
4、Free ST Chinese Mandarin Corpus
This corpus were recorded in silence in-door environment using cellphone. It has 855 speakers. Each speaker has 120 utterances
連結:http://www.openslr.org/38/
5、Primewords Chinese Corpus Set 1
Chinese Mandarin corpus released by Shanghai Primewords Co. Ltd. (www.primewords.cn), containing 100 hours of speech data.
The corpus is recorded by smart mobile phones from 296 native Chinese speakers. The transcription accuracy is larger than 98%, at the confidence level of 95%. It is free for academic use.
連結:http://www.openslr.org/47/