《阿里AI Lab高階演算法專家張增明:天貓精靈的任務型智慧對話》
語音質量評估:
語音質量評估語音質量評估,就是通過人類或自動化的方法評價語音質量。在實踐中,有很多主觀和客觀的方法評價語音質量。主觀方法就是通過人類對語音進行打分,比如MOS、CMOS和ABX Test。客觀方法即是通過演算法評測語音質量,在實時語音通話領域,這一問題研究較多,出現了諸如如PESQ和P.563這樣的有參考和無參考的語音質量評價標準。在語音合成領域,研究的比較少,論文中常常通過展示頻譜細節,計算MCD(mel cepstral distortion)等方法作為客觀評價。所謂有參考和無參考質量評估,取決於該方法是否需要標準訊號。有參考除了待評測訊號,還需要一個音質優異的,沒有損傷的參考訊號;而無參考則不需要,直接根據待評估訊號,給出質量評分。近些年也出現了MOSNet等基於深度網路的自動語音質量評估方法。 語音質量評測方法以下簡單總結常用的語音質量評測方法。
此外,有部分的方法,其程式碼已開源:
此外,有一本書用來具體敘述評價語音質量:Quality of Synthetic Speech: Perceptual Dimensions, Influencing Factors, and Instrumental Assessment (T-Labs Series in Telecommunication Services)[13]。
平均意見得分(Mean Opnion Score, MOS)主觀語音評測MOS評測實際是一種很寬泛的說法。由於給出評測分數的是人類,因此可以靈活的測試語音的不同方面。比如在語音合成領域,常見的有自然度MOS(MOS of naturalness),相似度MOS(MOS of similarity)。在實時通訊領域,有收聽質量(Listening Quality)評價和對話質量(Conversational Quality)評價。但是人類給出的評分結果受到的干擾因素特別多,一般不同論文給出的MOS不具有非常明確的可比性,同一篇文章中的MOS才可以比較不同系統的優劣。谷歌在SSW10發表的Evaluating Long-form Text-to-Speech: Comparing the Ratings of Sentences and Paragraphs對若干種多行文字合成語音的評估方法進行了比較,在評估較長文字中的單個句子時,音訊樣本的呈現形式會顯著影響被測人員給出的結果。比如僅提供單個句子而不提供上下文,與相同句子給出語境相比,被測人員給出的評分結果差異顯著。 在實時通訊領域,國際電信聯盟(ITU)將語音質量的主觀評價方法做了標準化處理,代號為ITU-T P.800.1。其中收聽質量的絕對等級評分(Absolute Category Rating, ACR) 是目前比較廣泛採用的一種主觀評價方法。在使用ACR方法對語音質量評價時,參與評測的人員對語音整體質量進行打分,分值範圍為1-5分,分數越大表示語音質量最好。
一般MOS應為4或者更高,這可以被認為是比較好的語音質量,若MOS低於3.6,則表示大部分被測不太滿意這個語音質量。 MOS測試一般要求:
除了絕對等級評分,其它常用的語音質量主觀評價有失真等級評分(Degradation Category Rating, DCR)和相對等級評分(Comparative Category Rating, CCR),這兩種方式不僅需要提供失真語音訊號還需要原始語音訊號,通過比較失真訊號和原始訊號獲得評價結果(類似於ABX Test),比較適合於評估背景噪音對語音質量的影響,或者不同演算法之間的直接較量。附語音合成論文中計算MOS的小指令碼,其不僅強調MOS值,並且要求95%的置信區間內的分數: |
|||||||||||||||||||
語音質量的感知評估(Perceptual evaluation of speech quality, PESQ)PESQ在國際電信聯盟的標註化代號為ITU-T P.862。總的想法是:
電平調整和時間對齊
|