1. 程式人生 > >語音質量評價

語音質量評價

1、影響語音質量的因素

     語音通訊系統中,影響語音質量的因素包括延時(delay)、丟包(packet loss)、包延遲變化(packet delay variation)、回聲(echo)、以及由於編碼造成的失真。將影響語音質量的因素分成三類,第一類是造成Listening Difficulty的因素,第二類是造成Talking Difficulty的因素,第三類是造成Conversational Difficulty的因素。

Listening Difficulty: 主要有丟包、編碼造成的失真、speech clipping(不知如何準確翻譯)以及回聲。丟包是指語音幀未送達的百分比例。超過5%就會語音質量的嚴重下降。而speech clipping發生在訊號丟失的任何時間,在連線過程中,發生了丟包,或者是對語音進行的VAD(Voice Activity Detection)過程。都有可能導致speech clipping.

Talking Difficulty:主要是回聲和側音(sidetone)-- 側音是通訊術語,通常指在終端裝置(例如電話機)中,發端訊號經處理後,其中一部分回饋到自身接收電話的那部分訊號。 在電話機中,原始話音通過送話器把聲音訊號轉化為電訊號,經通訊線路一路傳送到對方,一路回傳到本方受話器,使講話人能聽到自己的聲音,這就是側音。

Conversation Difficulty: 時延。

2、語音質量評價的方式

     主觀測試(subjective Tests)

image

對於Listening quality,下圖是MOS中的標準

image

image

      客觀測試(Objective Tests)

image

有兩個指標用用來評價語音質量,一個是相關係數,另外一個是RMSE

image