語音質量評估：

語音質量評估

語音質量評估，就是通過人類或自動化的方法評價語音質量。在實踐中，有很多主觀和客觀的方法評價語音質量。主觀方法就是通過人類對語音進行打分，比如MOS、CMOS和ABX Test。客觀方法即是通過演算法評測語音質量，在實時語音通話領域，這一問題研究較多，出現了諸如如PESQ和P.563這樣的有參考和無參考的語音質量評價標準。在語音合成領域，研究的比較少，論文中常常通過展示頻譜細節，計算MCD(mel cepstral distortion)等方法作為客觀評價。所謂有參考和無參考質量評估，取決於該方法是否需要標準訊號。有參考除了待評測訊號，還需要一個音質優異的，沒有損傷的參考訊號；而無參考則不需要，直接根據待評估訊號，給出質量評分。近些年也出現了MOSNet等基於深度網路的自動語音質量評估方法。

語音質量評測方法

以下簡單總結常用的語音質量評測方法。

主觀評價：MOS[1], CMOS, ABX Test
客觀評價
- 有參考質量評估(intrusive method)：ITU-T P.861(MNB), ITU-T P.862(PESQ)[2], ITU-T P.863(POLQA)[3], STOI[4], BSSEval[5]
- 無參考質量評估(non-intrusive method)
  - 傳統方法
    - 基於訊號：ITU-T P.563[6], ANIQUE+[7]
    - 基於引數：ITU-T G.107(E-Model)[8]
  - 基於深度學習的方法：AutoMOS[9], QualityNet[10], NISQA[11], MOSNet[12]

此外，有部分的方法，其程式碼已開源：

speechmetrics：該倉庫包括MOSNet, SRMR, BSSEval, PESQ, STOI的開源實現和對應的源倉庫地址。
ITU組織已公佈自己實現的P.563:P.563 Source Code。GitHub上面的qin/p.563微小修改版使其能夠在Mac上編譯。
gabrielmittag/NISQA
JasonSWFu/Quality-Net
在語音合成中會用到的計算MCD：MattShannon/mcd

此外，有一本書用來具體敘述評價語音質量：Quality of Synthetic Speech: Perceptual Dimensions, Influencing Factors, and Instrumental Assessment (T-Labs Series in Telecommunication Services)[13]。

[1]P.800.1 : Mean opinion score (MOS) terminology

[2]P.862 : Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs

[3]P.863 : Perceptual objective listening quality prediction

[4] An algorithm for predicting the intelligibility of speech masked by An algorithm for predicting the intelligibility of speech masked by modulated noise maskers

[5] Latent Variable Analysis and Signal Separation: 14th International Conference, LVA/ICA 2018, Surrey, UK

[6]P.563 : Single-ended method for objective speech quality assessment in narrow-band telephony applications

[7] Kim D S. ANIQUE: An auditory model for single-ended speech quality estimation[J]. IEEE Transactions on Speech and Audio Processing, 2005, 13(5): 821-831.

[8]G.107 : The E-model: a computational model for use in transmission planning

[9]AutoMOS

[10]QualityNet

[11]MOSNet

[12] G. Mittag and S. Möller, "Non-intrusive Speech Quality Assessment for Super-wideband Speech Communication Networks,"ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, United Kingdom, 2019, pp. 7125-7129.

[13]Quality of Synthetic Speech: Perceptual Dimensions, Influencing Factors, and Instrumental Assessment (T-Labs Series in Telecommunication Services)

平均意見得分(Mean Opnion Score, MOS)主觀語音評測

MOS評測實際是一種很寬泛的說法。由於給出評測分數的是人類，因此可以靈活的測試語音的不同方面。比如在語音合成領域，常見的有自然度MOS(MOS of naturalness)，相似度MOS(MOS of similarity)。在實時通訊領域，有收聽質量(Listening Quality)評價和對話質量(Conversational Quality)評價。但是人類給出的評分結果受到的干擾因素特別多，一般不同論文給出的MOS不具有非常明確的可比性，同一篇文章中的MOS才可以比較不同系統的優劣。谷歌在SSW10發表的Evaluating Long-form Text-to-Speech: Comparing the Ratings of Sentences and Paragraphs對若干種多行文字合成語音的評估方法進行了比較，在評估較長文字中的單個句子時，音訊樣本的呈現形式會顯著影響被測人員給出的結果。比如僅提供單個句子而不提供上下文，與相同句子給出語境相比，被測人員給出的評分結果差異顯著。

在實時通訊領域，國際電信聯盟（ITU）將語音質量的主觀評價方法做了標準化處理，代號為ITU-T P.800.1。其中收聽質量的絕對等級評分（Absolute Category Rating, ACR）是目前比較廣泛採用的一種主觀評價方法。在使用ACR方法對語音質量評價時，參與評測的人員對語音整體質量進行打分，分值範圍為1-5分，分數越大表示語音質量最好。

音訊級別	MOS值	評價標準
優	4.0~5.0	很好，聽得清楚；延遲小，交流流暢
良	3.5~4.0	稍差，聽得清楚；延遲小，交流欠流暢，有點雜音
中	3.0~3.5	還可以，聽不太清；有一定延遲，可以交流
差	1.5~3.0	勉強，聽不太清；延遲較大，交流需要重複多遍
劣	0~1.5	極差，聽不懂；延遲大，交流不通暢

一般MOS應為4或者更高，這可以被認為是比較好的語音質量，若MOS低於3.6，則表示大部分被測不太滿意這個語音質量。

MOS測試一般要求：

足夠多樣化的樣本（即試聽者和句子數量）以確保結果在統計上的顯著；
控制每個試聽者的實驗環境和裝置保持一致；
每個試聽者遵循同樣的評估標準。

除了絕對等級評分，其它常用的語音質量主觀評價有失真等級評分（Degradation Category Rating, DCR）和相對等級評分（Comparative Category Rating, CCR），這兩種方式不僅需要提供失真語音訊號還需要原始語音訊號，通過比較失真訊號和原始訊號獲得評價結果（類似於ABX Test），比較適合於評估背景噪音對語音質量的影響，或者不同演算法之間的直接較量。附語音合成論文中計算MOS的小指令碼，其不僅強調MOS值，並且要求95%的置信區間內的分數：

語音質量的感知評估(Perceptual evaluation of speech quality, PESQ)

PESQ在國際電信聯盟的標註化代號為ITU-T P.862。總的想法是：

對原始訊號和通過被測系統的訊號首先電平調整到標準聽覺電平，再利用IRS（Intermediate Reference System）濾波器模擬標準電話聽筒進行濾波；
對通過電平調整和濾波之後的兩個訊號在時間上對準，並進行聽覺變換，這個變換包括對系統中線性濾波和增益變化的補償和均衡；
將兩個聽覺變換後的訊號之間的譜失真測度作為擾動（即差值），分析擾動曲面提取出的兩個退化引數，在頻率和時間上累積起來，對映到MOS的預測值。

電平調整和時間對齊

電平調整

由於各個系統的增益不同，因此需要將原訊號和被測訊號二者調整到統一、恆定的響度。

令

相關推薦

《阿里AI Lab高階演算法專家張增明：天貓精靈的任務型智慧對話》

語音質量評估：語音質量評估語音質量評估，就是通過人類或自動化的方法評價語音質量。在實踐中，有很多主觀和客觀的方法評價語音質量。主觀方法就是通過人類對語音進行打分，比如MOS、CMOS和ABX Test。

阿里面試題合集118道送答案（新總結）：天貓+螞蟻金服+阿里巴巴

每一年的雙11，都是阿里新技術的演練場，也是阿里技術人一年一度的大秀秀場。

ESP8266開發、ESP8266連線阿里雲物聯網、天貓精靈控制esp8266、esp8266一鍵配網、智慧家居

技術標籤：esp8266物聯網arduino智慧感測器 ESP8266開發、ESP8266連線阿里雲物聯網、天貓精靈控制esp8266、esp8266一鍵配網、智慧家居

阿里巴巴公益事業群總裁胡曉明：去年平臺縣域商品銷售額 1.2 萬億元

5 月 17 日下午訊息，在 2021 阿里巴巴鄉村致富大會上，胡曉明以阿里巴巴脫貧基金執行祕書長、阿里巴巴集團公益事業群總裁的身份亮相發表演講。

阿里雲新設浙江貓精人工智慧科技公司，天貓精靈迴應

據國家工商資訊顯示，5 月 27 日，浙江貓精人工智慧科技有限公司新設成立。該公司法定代表人為庫偉，註冊資本 5000 萬人民幣，經營範圍包括人工智慧硬體銷售、教育諮詢服務等。據公開資訊，庫偉目前擔任天貓精靈事業

智慧家居市場全面分析：華為 HiLink、小米米家、阿里“天貓精靈”、騰訊 QQ 物聯等

中國智慧家居產業規模已超千億元，且將持續增長，並逐漸向前裝化、全場景、主動智慧方向演進。

阿里高階技術專家：如何結構化地思考、做事、成長？

作者 | 承風阿里巴巴高階前端技術專家導讀：建立結構化的思維，以結構化的模式驅動工作，以結構化的體系構建自身的能力，小到寫 PPT、大到為業務提供更大價值，都是非常值得我們使用的模式。阿里巴巴數字供應鏈事

AI專家一席談：複用演算法、模型、案例，AI Gallery帶你快速上手應用開發

摘要：華為雲社群邀請到了AI Gallery的負責人嚴博，聽他談一談AI Gallery的設計初衷、經典案例以及未來規劃。

簡單實用演算法—分散式自增ID演算法snowflake（雪花演算法）

演算法概述分散式系統中，有一些需要使用全域性唯一ID的場景，這種時候為了防止ID衝突可以使用36位的UUID，但是UUID有一些缺點，首先他相對比較長，另外UUID一般是無序的。有些時候我們希望能使用一種簡單一些的ID，

從實習生到演算法專家我都經歷了什麼？

寫在前面的話大家好，我是DOTA，我是朱翔宇。從“數字中國建設峰會”回到北京的這個週末，一個人來到公司，回想這幾年走過的路感慨良多。於是乎提起筆，寫一下我這幾年的經歷、感悟、收穫。給自己做一個階

簡單的井字棋 AI DEMO | MaxMin演算法

在“類與物件”實訓課上，有一道附加題讓我們用 OOP 做一個的井字棋模擬程式，要求中電腦是隨機落子的，這樣顯然不是很優雅。回憶起以前學的對抗搜尋（這裡叫 MaxMin 演算法），我繼續給遊戲中的電腦一方寫了個 AI。

阿里達摩院院長張建鋒：未來十年，力爭在人工智慧、晶片等領域實現重大突破

3 月 5 日訊息今天阿里巴巴達摩院院長張建鋒在接受採訪時表示，下一個十年，阿里巴巴將堅定不移繼續加大對基礎技術和前沿技術的投入，在人工智慧、晶片、量子計算、區塊鏈等領域進行科研攻關，力爭實現重大突破。

阿里雲張建鋒：無影雲電腦啟動大規模商用，已服務眾多行業客戶

5 月 28 日訊息，阿里巴巴今天在北京舉行了阿里雲智慧峰會，在峰會上，阿里雲總裁張建鋒表示，此前釋出的無影雲電腦已開啟大規模商用，並且目前已服務眾多行業客戶。同時，無影雲電腦公有版目前已經上線，使用者可在

阿里頒發“達摩獎”，張勇：達摩院不以盈利為目的，堅定長期研究量子計算、晶片等

6 月 25 日晚間訊息，阿里巴巴授予 5 位達摩院科學家和 3 個團隊“達摩獎”。據悉，這是阿里巴巴最高科技榮譽。阿里巴巴董事會主席兼執行長張勇表示，阿里達摩院堅定投入長期基礎科學研究，追求世界最前沿的尖端科技

位元組跳動 AI Lab 總監李磊離職加盟美國高校：曾為百度少帥科學家，交大 ACM 班成員

據 AI 研究者王威廉推特訊息，位元組跳動 AI 實驗室總監李磊重返學術界，進入加州大學聖巴巴拉分校擔任助理教授。

從小白程式設計師到大廠高階技術專家我看過哪些書籍？

大家好，我是冰河~~ 有句話叫做：投資啥都不如投資自己的回報率高。從參加工作到現在，短短的幾年內，我投資在自己身上的錢已超過三十多萬，光買書籍的錢就已超過總投資的三分之一，買了不少於上千本書，有實體書，

“阿里女員工案”張某妻子：已聘請律師準備走司法程式

9 月 13 日訊息9 月 12 日晚間，微博認證為“阿里女員工案”張某妻子的 @上善如水 a11賬號發聲，質疑其丈夫張某涉嫌強制猥褻被批捕一事，引發輿論關注。擴充套件閱讀：《“阿里女員工案”王某文妻子決定控告周某》下

“阿里女員工案”商戶代表張某妻子發聲：已控告周某，公安已受理

9 月 27 日晚間，微博認證為“阿里女員工案”張某妻子的 @上善如水 a11 賬號發聲，稱其已正式向公安機關控告阿里女員工周某。張某妻子表示，公安機關已正式受理。張某妻子在微博中晒出濟南市公安局槐蔭分局的受案回執

阿里雲張獻濤：公共雲正不斷向外延伸，一雲多型是未來趨勢

簡介：一雲多型是公有云的未來趨勢，包括產品的多形態、部署的多形態和生態的多形態。

臺積電創始人張忠謀：英特爾曾找過我們，想做高階產品

12 月 7 日訊息，據中國臺灣經濟日報報道，臺積電創始人張忠謀昨日發表主題演講，爆料了過去英特爾找臺積電幫忙的始末，以及帕特・基辛格（Pat Gelsinger）2015 年與其見面的往事。報道稱，張忠謀近期曾透露，他與基
搜尋

基礎教學

Mysql入門 Sql入門 Android入門 Docker入門 Go語言入門 Ruby程式入門 Python入門 Python進階 Django入門 Python爬蟲入門
最近訪問
首頁
前端設計
程式設計
免費資源
實用技巧
資料庫
資訊
詞典

Copyright © 2023 程式人生 796T.COM All rights reserved.

《阿里AI Lab高階演算法專家張增明：天貓精靈的任務型智慧對話》

語音質量評測方法

平均意見得分(Mean Opnion Score, MOS)主觀語音評測

語音質量的感知評估(Perceptual evaluation of speech quality, PESQ)

電平調整和時間對齊

相關推薦