[轉]開源語音資料集

阿新 • • 發佈：2021-07-07

ASR 測試集

本文為CSDN博主「chenghaoy」的原創文章, 原文連結：https://blog.csdn.net/chenghaoy/article/details/82842151

英文資料集：
1.LibriSpeech ASR corpus：該資料集是包含大約1000小時的英語語音的大型語料庫。這些資料來自LibriVox專案的有聲讀物。它已被分割並正確對齊，如果你正在尋找一個起點，請檢視已準備好的聲學模型，這些模型在kaldi-asr.org和語言模型上進行了訓練，適合評估。
https://www.openslr.org/12

Mini LibriSpeech ASR corpus：用於迴歸測試的一個子集 http://www.openslr.org/31/

2.TED-LIUM：http://www.openslr.org/7/
TED-LIUMv2：http://www.openslr.org/19/
TED-LIUM Release 3：https://www.openslr.org/51/

3.VoxForge：該資料集是帶口音的語音清潔資料集，對測試模型在不同重音或語調下的魯棒性非常有用。
http://www.voxforge.org/
https://voice.mozilla.org/zh-CN/data

4.TIMIT資料集百度雲連結：https://pan.baidu.com/s/1YJNIFdBiSPqebTq_GyOdog 密碼：sqw7

5.Free ST American English Corpus：

http://www.openslr.org/45/

中文資料集
1、THCHS-30
THCHS-30是在安靜的辦公室環境下，通過單個碳粒麥克風錄取的，總時長超過30個小時。大部分參與錄音的人員是會說流利普通話的大學生。取樣頻率16kHz，取樣大小16bits。
THCHS-30的文字選取自大容量的新聞，目的是為了擴充863語音庫。我們選取1000句來錄音。
連結：http://www.openslr.org/18/

2、Aishell
Aishell is an open-source Chinese Mandarin speech corpus published by Beijing Shell Shell Technology Co.,Ltd.
400 people from different accent areas in China are invited to participate in the recording, which is conducted in a quiet indoor environment using high fidelity microphone and downsampled to 16kHz. The manual transcription accuracy is above 95%, through professional speech annotation and strict quality inspection. The data is free for academic use. We hope to provide moderate amount of data for new researchers in the field of speech recognition.
希爾貝殼中文普通話開源語音資料庫AISHELL-ASR0009-OS1錄音時長178小時，是希爾貝殼中文普通話語音資料庫AISHELL-ASR0009的一部分。AISHELL-ASR0009錄音文字涉及智慧家居、無人駕駛、工業生產等11個領域。錄製過程在安靜室內環境中，同時使用3種不同裝置：高保真麥克風（44.1kHz，16-bit）；Android系統手機（16kHz，16-bit）；iOS系統手機（16kHz，16-bit）。高保真麥克風錄製的音訊降取樣為16kHz，用於製作AISHELL-ASR0009-OS1。400名來自中國不同口音區域的發言人參與錄製。經過專業語音校對人員轉寫標註，並通過嚴格質量檢驗，此資料庫文字正確率在95%以上。分為訓練集、開發集、測試集。
連結：

http://www.openslr.org/33/

3、Aishell2
希爾貝殼中文普通話語音資料庫AISHELL-2的語音時長為1000小時，其中718小時來自AISHELL-ASR0009-[ZH-CN]，282小時來自AISHELL-ASR0010-[ZH-CN]。錄音文字涉及喚醒詞、語音控制詞、智慧家居、無人駕駛、工業生產等12個領域。錄製過程在安靜室內環境中，同時使用3種不同裝置：高保真麥克風（44.1kHz，16bit）；Android系統手機（16kHz，16bit）；iOS系統手機（16kHz，16bit）。AISHELL-2採用iOS系統手機錄製的語音資料。1991名來自中國不同口音區域的發言人參與錄製。經過專業語音校對人員轉寫標註，並通過嚴格質量檢驗，此資料庫文字正確率在96%以上

4、Free ST Chinese Mandarin Corpus
This corpus were recorded in silence in-door environment using cellphone. It has 855 speakers. Each speaker has 120 utterances
連結：http://www.openslr.org/38/

5、Primewords Chinese Corpus Set 1
Chinese Mandarin corpus released by Shanghai Primewords Co. Ltd. (www.primewords.cn), containing 100 hours of speech data.
The corpus is recorded by smart mobile phones from 296 native Chinese speakers. The transcription accuracy is larger than 98%, at the confidence level of 95%. It is free for academic use.
連結：http://www.openslr.org/47/

[轉]開源語音資料集

[轉]開源語音資料集

Mozilla 開源語音資料集已擁有超兩萬小時內容，新增支援粵語、閩南語

世界最大的多語言語音資料集現已開源：超 40 萬小時，共 23 種語言

開源 CV 資料集生成器 Kubric 火了，支援 13 類複雜 CV 任務，DeepMind 谷歌 MIT 等打造

COCO資料集轉mask

COCO資料集提取自己需要的類轉VOC

pytorch載入語音類自定義資料集的方法教程

將 KITTI資料集的點雲和影象轉成Bag格式

將json格式資料集轉化為record格式

利用開源資料集進行釣魚郵件檢測——資料量還是很少啊，黑+白1萬多條

labelme轉coco資料集

Lab-COCO資料集json格式轉txt格式

螞蟻集團開源迄今為止最大規模視訊侵權定位資料集和程式碼

201971010229-劉轉弟實驗三軟體工程結對專案-《D{0-1}KP問題例項資料集演算法實驗平臺》

voc資料集（xml）轉yolov5資料格式（txt）訓練自己的資料集

【開源資料集】無人機室內室外，視覺-慣性-鐳射雷達-UWB

Spark 系列（三）—— 彈性式資料集RDDs

SQLserver中cube：多維資料集例項詳解

Pytorch 神經網路—自定義資料集上實現教程

pytorch 批次遍歷資料集列印資料的例子

[轉]開源語音資料集

相關推薦