1. 程式人生 > 其它 >論文翻譯:2020_The INTERSPEECH 2020 Deep Noise Suppression Challenge: Datasets, Subjective Speech Quality and Testing Framework

論文翻譯:2020_The INTERSPEECH 2020 Deep Noise Suppression Challenge: Datasets, Subjective Speech Quality and Testing Framework

論文地址:https://arxiv.53yu.com/abs/2001.08662

INTERSPEECH 2020深度噪聲抑制挑戰:資料集,主觀語音質量和測試框架

摘要:

  INTERSPEECH 2020深度噪聲抑制挑戰旨在促進實時單通道語音增強的合作研究,旨在最大限度地提高增強語音的主觀(感知)質量。評價噪聲抑制方法的一種典型方法是對原始資料集進行分割得到的測試集使用客觀度量。許多出版物報告了從訓練集的相同分佈提取的合成測試集的合理性能。然而,通常模型效能在真實記錄上顯著下降。而且,大多數傳統的客觀度量與主觀測試沒有很好的關聯,而且實驗室主觀測試對於大型測試集是不可擴充套件的。在這個挑戰中,我們開源了一個大的純淨的語音和噪聲語料庫,用於訓練噪聲抑制模型和一個有代表性的測試集,以真實世界的場景,包括合成和真實錄音。我們還開放了一個基於ITU-T P.808的線上主觀測試框架,供研究人員快速測試他們的開發。這個挑戰的獲勝者將在使用P.808框架的一個有代表性的測試集的主觀評價的基礎上選擇。
關鍵字:

噪聲抑制,語音增強,深度學習,音訊,資料集

1 引言

  隨著遠端工作和開放式辦公環境的人數不斷增加,對具有良好語音質量和清晰度的視訊/音訊通話的需求比以往任何時候都更加重要。背景噪聲對語音質量的影響是造成語音通話質量差的主要原因之一。傳統的語音增強(SE)技術是基於統計模型估計的噪聲觀測。這些方法對平穩噪聲的抑制效果較好,但對非平穩噪聲的抑制效果較差。最近,SE被認為是一個有監督的學習問題,在這個問題中,語音和噪聲中的模式是使用訓練資料[6]來學習的。利用深度神經網路(DNN)對語音進行頻譜或時域估計。基於DNN的方法在抑制非平穩噪聲[7]-[10]方面優於傳統的SE技術。
  經過40多年的噪聲抑制技術研究,訊號處理和基於深度神經網路的方法得到了發展,這些方法利用時域音訊訊號或光譜特徵[1]-[5]來估計乘性掩模,從而降低噪聲。大多數已發表的文獻報道了基於客觀語音質量度量的實驗結果,如語音質量感知評價(perception Evaluation of speech quality, PESQ)、感知客觀聽力質量分析(perception objective Listening quality Analysis, POLQA)[11]、虛擬語音質量目標聽者(Virtual speech quality objective, ViSQOL)[12]、語音失真比(speech to Distortion Ratio, SDR)等。這些指標被證明與主觀測試[13]沒有很好的相關性。很少有論文報告主觀的實驗室測試結果,但它們要麼沒有統計意義,要麼測試集非常小。
  深度學習中常見的做法是將資料集分成訓練集、驗證集和測試集。對於SE任務,訓練集由噪聲語音對和純淨語音對組成。噪聲語音通常是由純淨的語音和噪聲混合而成的。在綜合測試集上測試開發的模型可以對模型效能進行啟發式的測試,但這不足以確保在現實環境中部署時的良好效能。開發的模型應該在不同的嘈雜和混響條件下的有代表性的真實錄音中進行測試,這些聲音和噪聲是在相同的聲學條件下由相同的麥克風捕獲的。由於純淨的語音訊號和噪聲訊號是獨立捕獲的,因此很難用合成數據來模擬這些情況。這使得研究人員很難比較已發表的SE方法,並選擇最好的方法,因為沒有通用的測試集是廣泛的,並代表真實世界的噪聲條件。此外,也沒有可靠的主觀測試框架,每個人在研究社群可以使用。在[13]中,我們開源了微軟可伸縮噪聲語音資料集(MS-SNSD)和ITU-T P.800主觀評估框架。MS-SNSD包括純淨的語音和噪聲記錄和指令碼,以合成噪聲語音和增強生成訓練集。此外,還提供了一個不相交測試集進行評價。但測試裝置缺少真實的錄音,並且沒有足夠的混響噪聲條件。此外,P.800的實現缺少了P.808的一些眾包功能,如聽力和環境測試,以及陷阱問題。
  深度噪聲抑制(DNS)挑戰是通過開放訓練/測試資料集和主觀評價框架來統一SE領域的研究工作。我們提供了比MS-SNSD[13]大30倍的大型純淨的語音和噪聲資料集。這些資料集附帶了可配置的指令碼來合成訓練集。參與者可以使用他們選擇的任何資料集進行培訓。測試集的一半將被髮布給研究人員在開發過程中使用。另一半將被用作測試集,以決定最終的比賽獲勝者。使用ITU-T P.808[14]的線上主觀評價框架將用於比較提交的SE方法。我們還提供了一種最先進的SE方法的模型和推理指令碼,作為比較的基本演算法。基於SE方法的計算複雜度,這個挑戰有兩條路徑。一個軌道側重於實時SE方法,另一個軌道是針對非實時方法。
  第2節描述資料集。第3節描述基本SE方法。第4節討論了線上主觀評價框架。挑戰賽和其他後勤規則見第5節。

2 資料集

  釋出純淨的語音和噪聲資料集的目的是為研究人員提供廣泛和有代表性的資料集來訓練SE模型。之前,我們釋出了MSSNSD[13],重點關注可擴充套件性。近年來,由於YouTube、智慧裝置和有聲讀物上的內容創作不斷增加,網際網路上可獲得的音訊資料數量呈爆炸式增長。雖然這些資料集中的大多數對於訓練音訊事件檢測器、自動語音識別(ASR)系統等任務是有用的,但大多數SE模型需要一個清晰的參考,這並不總是可用的。因此,我們合成了噪聲-純淨的語音對。

2.1 純淨語音

  純淨的語音資料集來源於公共音訊圖書資料集Librivox1。Librivox語料庫在許可的創作共用4.0許可證[15]下可用。Librivox擁有志願者閱讀1萬多本不同語言的公共領域有聲讀物的錄音,其中大部分是英語。總共有11,350名發言人。這些錄音的一部分是高質量的,這意味著講話是在一個安靜和較少混響的環境中使用高質量的麥克風錄製的。但也有很多錄音存在語音失真、背景噪聲和混響等問題。因此,基於語音質量的資料過濾是非常重要的。
  我們使用線上主觀測試框架ITU-T P.808[14]對書籍章節進行主觀質量排序。Librivox中的音訊章節長度不等,從幾秒到幾分鐘不等。我們從每本書的章節中隨機抽取10個片段,每個片段持續時間為10秒。對於每個剪輯,我們有3個評分,所有剪輯的平均意見得分(MOS)被用作書中的章節MOS。圖1顯示了結果,顯示了質量從非常差到非常好。

圖1:經過95%置信區間排序的Librivox P.808 MOS質量

  MOS的上四分位數被選擇為我們的純淨語音資料集,它們是MOS作為度量的剪輯的前25%。上四分位由4.3≤MOS≤5的音訊章節組成。我們刪除了演講少於15分鐘的演講者的片段。得到的資料集包含了2150名演講者超過500小時的演講。所有過濾過的片段都被分成30秒的片段。

2.2 噪聲資料集

  噪音剪輯是從Audioset2[16]和Freesound3中選擇的。Audioset收集了從YouTube視訊中提取的約200萬個人類標記的10個聲音片段,屬於約600個音訊事件。就像Librivox的資料一樣,某些音訊事件類也被誇大了。例如,有超過100萬個音訊課程、音樂和演講的剪輯,而少於200個課程的剪輯,如牙刷、嘎吱聲等。大約42%的剪輯有單一類別,但其餘可能有2到15個標籤。因此,我們開發了一種取樣方法來平衡資料集,使每個類至少有500個剪輯。我們還使用了語音活動檢測器來刪除帶有任何型別的語音活動的剪輯。原因是為了避免噪聲抑制模型對語音的抑制,該模型訓練來抑制語音類噪聲。結果資料集有大約150個音訊類和6萬個剪輯。我們還增加了從Freesound和DEMAND資料庫[17]下載的10,000個噪音剪輯。所選擇的噪聲型別與VOIP應用程式更相關。

2.3 噪聲語音

  純淨的語音和噪聲資料集可以在repo4中找到。噪聲語音資料庫是通過在不同的信噪比(SNR)水平上新增純淨的語音和噪聲來建立的。我們使用語音和噪聲都活躍的段來計算分段信噪比。這是為了避免在脈衝噪聲型別如關門、嘩啦聲、狗叫等中超過振幅水平。我們通過增加純淨的語音和噪音來合成30秒長的剪輯。信噪比水平是在0到40 dB之間的均勻分佈取樣的。然後將混合訊號設定為目標均方根(RMS)水平,取樣範圍為-15 dBFS和-35 dBFS之間的均勻分佈。資料生成指令碼在DNS-Challenge回購協議中是開源的。

2.4 測試

  我們正在開放一個新的測試集,包括合成和真實的錄音。一般的做法是在一個綜合測試集上評價SE方法。但是一個合成測試集並不能很好地代表我們在野外觀察到的情況。合成測試集在使用需要明確引用的客觀度量(如PESQ和POLQA)在開發階段調優模型時可能很有用。在合成數據中,通常使用兩種不同的麥克風在不同的聲學條件下采集原始的純淨語音和噪聲,並將其混合形成含噪語音。在真實的錄音中,純淨的語音和噪音是在相同的麥克風和聲學條件下捕獲的。
  測試集分為4類,每類300個剪輯:
  1. 合成剪輯沒有混響
  2.合成剪輯混響
  3.微軟內部收集的真實錄音。
  4.來自Audioset的真實錄音
  對於合成測試片段,我們使用了格拉茨大學(Graz University)的純淨語音資料集[18],它包含了20個說話者說的4,270個錄音句子。對於混響合成剪輯,我們使用在微軟內部記錄的RT60從300ms到1300ms的房間脈衝響應,將混響新增到純淨的檔案。我們從我們認為對VoIP場景非常重要的12個噪音類別中選取15個片段,合成180個噪音片段。這12個類別分別是風扇、空調、打字、關門、嘩啦聲、汽車、咀嚼聲、椅子吱吱作響、呼吸、影印機、嬰兒哭鬧和吠叫。剩下的120個噪音剪輯是隨機從剩下的100+噪音類別中抽取的。信噪比水平從0 dB到25 dB之間的均勻分佈中取樣。微軟內部收集的真實錄音包括在各種嘈雜的開放辦公室和會議室中錄製的嘈雜講話。我們從AudioSet中精心挑選了300個語音混合噪音的音訊剪輯,我們認為這些音訊剪輯與我們在嘈雜環境中經歷的音訊通話有關。

3 基線SE方法

  作為基線,我們將使用最近開發的SE方法,它是基於迴圈神經網路(RNN)。為了便於參考,我們將此方法稱為噪聲抑制網(NSNet)。該方法使用對數功率譜作為輸入,利用基於門控迴圈單元(GRU)和全連通層的學習機預測每幀的增強增益。詳細的方法請參考論文。NSNet具有計算效率。在使用ONNX執行時v1.1的Intel四核i5機器上,提升20ms幀只需要0.16ms。它是用一個大的測試集進行主觀評價的,顯示了對傳統的SE方法的改進。
  我們在挑戰dns -挑戰repo中開源了ONNX格式的推理指令碼和模型。

4 線上主觀評價框架ITU-T P.808

  我們使用ITU-T P.808語音質量主觀評價和眾包方法[14]方法,使用絕對類別評分(ACR)來估計平均意見得分(MOS)來評估和比較語音質量評價方法。我們使用亞馬遜土耳其機械平臺建立了P.808的開源實現。本系統具有以下特點/屬性:
  評級人員首先通過聽力和環境測試獲得資格,然後才能開始評級剪輯。這確保了評分者有足夠的聽力能力,一個優質的聽力裝置,和一個安靜的環境進行評分。我們的實現允許評級者在合格後立即開始評級剪輯,這比單獨的資格階段提高了約5倍的評級速度。
  評價者會得到幾個訓練例子,但不會使用結果進行篩選;該培訓用於錨定目的。
  音訊剪輯按剪輯組進行分級(例如,N=10)。每組包括一個已知地面真相的金夾子(例如一個純淨或很差的夾子)和一個陷阱問題(例如,“這是一箇中斷:請選擇選項2”)。黃金和陷阱問題用於過濾那些不注意的“垃圾郵件”評分者。
  每個小時的評級者也給予比較評級測試使用黃金樣本(例如,哪個更好,A或B),以驗證他們的環境仍然是有效的做評級。
  評級者被限制為每P.808建議評級有限數量的剪輯,以減少評級者疲勞。
  為了驗證測量系統的準確性,我們對ITU增補23實驗3[19]資料集進行了評級,該資料集已經發布了基於實驗室的MOS結果。該系統與ITU增補23中給出的實驗室結果的斯皮爾曼相關係數為0.93 (MOS是根據測試條件計算的)。為了驗證系統的可重複性,我們運行了兩次ITU增補23(在不同的日子,重疊評級<10%,評級為執行1的1/10),結果相似(見表1)。

表1:P.808與ITU增補23的Spearman秩相關

  

5 DNS挑戰規則和時間表

5.1 規則

  所有參賽者必須遵守以下規則才有資格接受挑戰。
  1、參與者可以使用他們選擇的任何訓練資料集。它們還可以向所提供的資料集增加額外的資料。他們可以以任何方式混合純淨的語音和噪音,以提高他們的SE方法的效能。我們還鼓勵參與者將他們的資料集開源,以便幫助更大的研究社群。
  2、在開發階段,參與者可以在任何測試集上測試他們開發的方法。但是我們鼓勵他們使用我們的測試集,因為它是廣泛的,並且是真實世界場景的一個很好的表示。
  3、根據計算複雜度的不同,每個參與的SE方法都將落在兩個軌道中的一個。軌道1專注於低計算複雜度。在時鐘為2.4 GHz或同等處理器的Intel Core i5四核機器上,該演算法處理一幀T(單位ms)大小的幀的時間應該小於T/2(單位ms)。幀長T應小於或等於40ms。Track 2對計算時間沒有任何限制,因此研究人員可以探索更深入的模型來獲得卓越的語音質量。
  4、在這兩種軌跡中,SE方法最多可以有40ms的超前。為了推斷當前幀T(單位ms),演算法可以訪問任意數量的過去幀,但只能訪問未來幀的40ms (T+40ms)。
  5、獲勝者將根據在使用ITU-T P.808框架的盲測集上評估的主觀語音質量,從每條軌道中選出。
  6、盲測套裝將於3月18日提供給參賽者。參加者應使用他們開發的模型將增強的剪輯傳送給組織者。我們將使用提交的未經修改的剪輯進行ITU-T P.808主觀評價,並根據結果選出優勝者。參與者被禁止使用盲測集來重新訓練或調整他們的模型。他們不應提交使用其他噪聲抑制方法的增強剪輯,因為他們沒有提交INTERSPEECH 2020。如不遵守以上規則,將被取消參賽資格。
  7、參與者應該報告他們的模型的計算複雜度,包括引數的數量和在特定CPU上推斷幀所需的時間(最好是Intel Core i5四核機器的時鐘為2.4 GHz)。在提交的建議書中,差異小於0.1 MOS的,將給予複雜性較低的模型較高的排名。
  8、每個參與團隊都需要提交一份INTERSPEECH論文,總結研究成果並提供所有細節,以確保重現性。作者可以選擇在他們的論文中報告額外的客觀/主觀指標。
  9、提交的論文將經過INTERSPEECH 2020的標準同行評審程式。論文需要被會議接受,參與者才有資格接受挑戰。
  10、提交常會的有關檔案可列入這一挑戰,以促進深入討論。

5.2 時間軸

  2020年1月20日:釋出用於培訓和測試的資料集和指令碼。
  2020年3月18日:釋出盲測裝置。
  2020年3月22日:參與者提交增強片段的截止日期。
  2020年3月25日:主辦單位將通知參賽者競賽結果
  2020年3月30日:INTERSPEECH 2020常規論文提交截止日期。

5.3 支援

  參賽隊伍可向[email protected]傳送電子郵件向組織者提出問題或需要澄清挑戰的任何方面。

6 結論

  這一挑戰旨在促進實時單麥克風噪聲抑制異常主觀語音質量。我們正在為研究人員提供訓練和測試資料集來訓練他們的模型。最終評估將使用ITU-T P.808進行。

7 感謝

  P.808的實現是Babak Naderi編寫的。

8 參考文獻

[1] Y. Ephraim and D. Malah,“Speech enhancement using a minimum mean-square error log-spectral amplitude estimator,” IEEE Trans. Acoust. Speech Signal Process., vol. 33, no. 2, pp. 443–445, Apr. 1985, doi: 10.1109/TASSP.1985.1164550.
[2] C. Karadagur Ananda Reddy, N. Shankar, G. Shreedhar Bhat, R. Charan, and I. Panahi,“An Individualized Super-Gaussian Single Microphone Speech Enhancement for Hearing Aid Users With Smartphone as an Assistive Device,” IEEE Signal Process. Lett., vol. 24, no. 11, pp. 1601–1605, Nov. 2017, doi: 10.1109/LSP.2017.2750979.
[3] P. J. Wolfe and S. J. Godsill,“Simple alternatives to the Ephraim and Malah suppression rule for speech enhancement,” in Proceedings of the 11th IEEE Signal Processing Workshop on Statistical Signal Processing (Cat. No.01TH8563), Singapore, 2001, pp. 496–499, doi: 10.1109/SSP.2001.955331.
[4] T. Lotter and P. Vary,“Speech Enhancement by MAP Spectral Amplitude Estimation Using a Super-Gaussian Speech Model,” EURASIP J. Adv. Signal Process., vol. 2005, no. 7, p. 354850, Dec. 2005, doi: 10.1155/ASP.2005.1110.
[5] S. Srinivasan, J. Samuelsson, and W. B. Kleijn, “Codebook-Based Bayesian Speech Enhancement for Nonstationary Environments,” IEEE Trans. Audio Speech Lang. Process., vol. 15, no. 2, pp. 441–452, Feb. 2007, doi: 10.1109/TASL.2006.881696.
[6] Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee,“A Regression Approach to Speech Enhancement Based on Deep Neural Networks,” IEEEACM Trans. Audio Speech Lang. Process., vol. 23, no. 1, pp. 7–19, Jan. 2015, doi: 10.1109/TASLP.2014.2364452.
[7] Y. Luo and N. Mesgarani,“Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation,” IEEEACM Trans. Audio Speech Lang. Process., vol. 27, no. 8, pp. 1256–1266, Aug. 2019, doi: 10.1109/TASLP.2019.2915167.
[8] A. Pandey and D. Wang,“TCNN: Temporal Convolutional Neural Network for Real-time Speech Enhancement in the Time Domain,” in ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, United Kingdom, 2019, pp. 6875–6879, doi: 10.1109/ICASSP.2019.8683634.
[9] D. Yin, C. Luo, Z. Xiong, and W. Zeng,“PHASEN: APhase-and-Harmonics-Aware Speech Enhancement Network,”ArXiv191104697 Cs Eess, Nov. 2019.
[10] A. Ephrat et al.,“Looking to Listen at the Cocktail Party:A Speaker-Independent Audio-Visual Model for Speech Separation,” ACM Trans. Graph., vol. 37, no. 4, pp. 1–11, Jul. 2018, doi: 10.1145/3197517.3201357.
[11] J. G. Beerends, M. Obermann, R. Ullmann, J. Pomy, and M. Keyhl, “Perceptual Objective Listening Quality Assessment (POLQA), The Third Generation ITU-T Standard for End-to-End Speech Quality Measurement Part I–Temporal Alignment,” J Audio Eng Soc, vol. 61, no. 6, p. 19, 2013.
[12] A. Hines, J. Skoglund, A. C. Kokaram, and N. Harte, “ViSQOL: an objective speech quality model,” Eurasip J. Audio Speech Music Process., no. 1, p. 13, 2015, doi: 10.1186/s13636-015-0054-9.
[13] C. K. A. Reddy, E. Beyrami, J. Pool, R. Cutler, S. Srinivasan, and J. Gehrke,“A Scalable Noisy Speech Dataset and Online Subjective Test Framework,” in Interspeech 2019, 2019, pp. 1816–1820, doi: 10.21437/Interspeech.2019-3087.
[14] “ITU-T P.808: Subjective evaluation of speech quality with a crowdsourcing approach,” 2018.
[15] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, “Librispeech: An ASR corpus based on public domain audio books,” in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015, pp. 5206–5210, doi: 10.1109/ICASSP.2015.7178964.
[16] J. F. Gemmeke et al.,“Audio Set: An ontology and human-labeled dataset for audio events,” in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), New Orleans, LA, 2017, pp. 776–780, doi: 10.1109/ICASSP.2017.7952261.
[17] J. Thiemann, N. Ito, and E. Vincent, “The Diverse Environments Multi-channel Acoustic Noise Database (DEMAND): A database of multichannel environmental noise recordings,” presented at the ICA 2013 Montreal, Montreal, Canada, 2013, pp. 035081–035081, doi: 10.1121/1.4799597.
[18] G. Pirker, M. Wohlmayr, S. Petrik, and F. Pernkopf,“A Pitch Tracking Corpus with Evaluation on Multipitch Tracking Scenario,” p. 4.
[19] “ITU-T Supplement 23 ITU-T coded-speech database Supplement 23 to ITU-T P-series Recommendations (Previously CCITT Recommendations),” 1998.