1. 程式人生 > 實用技巧 >《阿里AI Lab高階演算法專家張增明:天貓精靈的任務型智慧對話》

《阿里AI Lab高階演算法專家張增明:天貓精靈的任務型智慧對話》

語音質量評估:

語音質量評估

語音質量評估,就是通過人類或自動化的方法評價語音質量。在實踐中,有很多主觀和客觀的方法評價語音質量。主觀方法就是通過人類對語音進行打分,比如MOS、CMOS和ABX Test。客觀方法即是通過演算法評測語音質量,在實時語音通話領域,這一問題研究較多,出現了諸如如PESQ和P.563這樣的有參考和無參考的語音質量評價標準。在語音合成領域,研究的比較少,論文中常常通過展示頻譜細節,計算MCD(mel cepstral distortion)等方法作為客觀評價。所謂有參考和無參考質量評估,取決於該方法是否需要標準訊號。有參考除了待評測訊號,還需要一個音質優異的,沒有損傷的參考訊號;而無參考則不需要,直接根據待評估訊號,給出質量評分。近些年也出現了MOSNet等基於深度網路的自動語音質量評估方法。

語音質量評測方法

以下簡單總結常用的語音質量評測方法。

  • 主觀評價:MOS[1], CMOS, ABX Test

  • 客觀評價

    • 有參考質量評估(intrusive method):ITU-T P.861(MNB), ITU-T P.862(PESQ)[2], ITU-T P.863(POLQA)[3], STOI[4], BSSEval[5]
    • 無參考質量評估(non-intrusive method)
      • 傳統方法
        • 基於訊號:ITU-T P.563[6], ANIQUE+[7]
        • 基於引數:ITU-T G.107(E-Model)[8]
      • 基於深度學習的方法:AutoMOS[9], QualityNet[10], NISQA[11], MOSNet[12]

此外,有部分的方法,其程式碼已開源:

此外,有一本書用來具體敘述評價語音質量:Quality of Synthetic Speech: Perceptual Dimensions, Influencing Factors, and Instrumental Assessment (T-Labs Series in Telecommunication Services)[13]。

[1]P.800.1 : Mean opinion score (MOS) terminology

[2]P.862 : Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs

[3]P.863 : Perceptual objective listening quality prediction

[4] An algorithm for predicting the intelligibility of speech masked by An algorithm for predicting the intelligibility of speech masked by modulated noise maskers

[5] Latent Variable Analysis and Signal Separation: 14th International Conference, LVA/ICA 2018, Surrey, UK

[6]P.563 : Single-ended method for objective speech quality assessment in narrow-band telephony applications

[7] Kim D S. ANIQUE: An auditory model for single-ended speech quality estimation[J]. IEEE Transactions on Speech and Audio Processing, 2005, 13(5): 821-831.

[8]G.107 : The E-model: a computational model for use in transmission planning

[9]AutoMOS

[10]QualityNet

[11]MOSNet

[12] G. Mittag and S. Möller, "Non-intrusive Speech Quality Assessment for Super-wideband Speech Communication Networks,"ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, United Kingdom, 2019, pp. 7125-7129.

[13]Quality of Synthetic Speech: Perceptual Dimensions, Influencing Factors, and Instrumental Assessment (T-Labs Series in Telecommunication Services)

平均意見得分(Mean Opnion Score, MOS)主觀語音評測

MOS評測實際是一種很寬泛的說法。由於給出評測分數的是人類,因此可以靈活的測試語音的不同方面。比如在語音合成領域,常見的有自然度MOS(MOS of naturalness),相似度MOS(MOS of similarity)。在實時通訊領域,有收聽質量(Listening Quality)評價和對話質量(Conversational Quality)評價。但是人類給出的評分結果受到的干擾因素特別多,一般不同論文給出的MOS不具有非常明確的可比性,同一篇文章中的MOS才可以比較不同系統的優劣。谷歌在SSW10發表的Evaluating Long-form Text-to-Speech: Comparing the Ratings of Sentences and Paragraphs對若干種多行文字合成語音的評估方法進行了比較,在評估較長文字中的單個句子時,音訊樣本的呈現形式會顯著影響被測人員給出的結果。比如僅提供單個句子而不提供上下文,與相同句子給出語境相比,被測人員給出的評分結果差異顯著。

在實時通訊領域,國際電信聯盟(ITU)將語音質量的主觀評價方法做了標準化處理,代號為ITU-T P.800.1。其中收聽質量的絕對等級評分(Absolute Category Rating, ACR) 是目前比較廣泛採用的一種主觀評價方法。在使用ACR方法對語音質量評價時,參與評測的人員對語音整體質量進行打分,分值範圍為1-5分,分數越大表示語音質量最好。

音訊級別MOS值評價標準
4.0~5.0 很好,聽得清楚;延遲小,交流流暢
3.5~4.0 稍差,聽得清楚;延遲小,交流欠流暢,有點雜音
3.0~3.5 還可以,聽不太清;有一定延遲,可以交流
1.5~3.0 勉強,聽不太清;延遲較大,交流需要重複多遍
0~1.5 極差,聽不懂;延遲大,交流不通暢

一般MOS應為4或者更高,這可以被認為是比較好的語音質量,若MOS低於3.6,則表示大部分被測不太滿意這個語音質量。

MOS測試一般要求:

  1. 足夠多樣化的樣本(即試聽者和句子數量)以確保結果在統計上的顯著;

  2. 控制每個試聽者的實驗環境和裝置保持一致;

  3. 每個試聽者遵循同樣的評估標準。

除了絕對等級評分,其它常用的語音質量主觀評價有失真等級評分(Degradation Category Rating, DCR)和相對等級評分(Comparative Category Rating, CCR),這兩種方式不僅需要提供失真語音訊號還需要原始語音訊號,通過比較失真訊號和原始訊號獲得評價結果(類似於ABX Test),比較適合於評估背景噪音對語音質量的影響,或者不同演算法之間的直接較量。附語音合成論文中計算MOS的小指令碼,其不僅強調MOS值,並且要求95%的置信區間內的分數:

語音質量的感知評估(Perceptual evaluation of speech quality, PESQ)

PESQ在國際電信聯盟的標註化代號為ITU-T P.862。總的想法是:

  1. 對原始訊號和通過被測系統的訊號首先電平調整到標準聽覺電平,再利用IRS(Intermediate Reference System)濾波器模擬標準電話聽筒進行濾波;
  2. 對通過電平調整和濾波之後的兩個訊號在時間上對準,並進行聽覺變換,這個變換包括對系統中線性濾波和增益變化的補償和均衡;
  3. 將兩個聽覺變換後的訊號之間的譜失真測度作為擾動(即差值),分析擾動曲面提取出的兩個退化引數,在頻率和時間上累積起來,對映到MOS的預測值。

電平調整和時間對齊