1. 程式人生 > 其它 >淺談實時語音質量監控系統

淺談實時語音質量監控系統

今天小王學長跟大家談談實時語音質量監控系統的前世今生,實時語音想必大家都不陌生,微信語音聊天、視訊直播,生活中的例子比比皆是。


在過去的語音通訊系統中,影響語音質量的因素有很多,包括但不僅限於延時(delay)、丟包(packet loss)、包延遲變化(packet delay variation)、回聲(echo)、以及由於編碼造成的失真。

語音質量評估方法總的來說可以分為三種:有參考客觀評價方法、主觀評價方法和無參考客觀評價方法

有參考客觀評價方法:

是指把原始參考音視訊與失真音視訊在每一個對應幀中的每一個對應畫素之間進行比較。準確的講,這種方法得到的並不是真正的視訊質量,而是失真音視訊相對於原始音視訊的相似程度或保真程度。最簡單的方法如均方誤差 MSE 和峰值信噪比 PSNR,其應用比較廣泛。

PESQ 語音質量作為衡量語音傳輸效能的一個重要指標,如何得到準確、可靠的 QoE(體驗質量)評價系統已成為當前研究的重點,PESQ(perceptual evaluation of speech quality,語音質量評價演算法)是由 ITU 提出的基於 QoE 的語音質量評價演算法,並隨之成了 ITU-T P.862 標準。 PESQ 演算法是當前比較流行的語音質量評價演算法,說到 P.862 標準,P.861 PSQM 是最早的標準,ITU-T P.861 也叫做 PSQM,是根據 PAQM 推倒出來的一種語音質量評估體系。目前,P.862 PESQ、PESQ-WB 是應用最廣泛的有參考評價方法,最新的有參考評價方法有 P.863 POLQA,這些都是依賴無損參考訊號的。

無參考客觀評價方法:

語音質量客觀評價研究自七十年代以來得到了迅速發展,國內外學者提出了數以千計的客觀評價方法。客觀評價主要依據的就是原始語音訊號和失真語音訊號的時頻域或變換域的特徵引數對比。其主要是針對主觀評價方法的不足,人們早就希望有客觀評價方法來評價語音裝置的音質,這之後許多人陸續提出了基於客觀測度的客觀音質評價方法。希望採用這些方法方便、快捷地給出被測語音系統的語音質量評價值,只不過評價的主體是由機器硬體或軟體來完成。目前國內外採用較多的客觀評價方法有 PSQM、PAMS 和 PSQM+等方法。其中 P.563 是最著名的窄帶無參考評價方法。像 ANIQUE+這樣的據作者稱準確度超過有參考的 PESQ,其它的還有像 E-Model/P.1201 引數域評價方法以及 xxNet 深度學習域評價方法。

客觀評價方法也有許多弊端:

  • 有參考方法:只能用在上線前

  • 無參考方法-傳統訊號域:應用場景窄、魯棒性差

  • 無參考方法-傳統引數域:僅在有限弱網條件下可以保持精度

  • 無參考方法-深度學習:應用場景和語料有限,複雜度略高

通常,我們可以從不同方向提出各種客觀語音質量評估方法,但是客觀語音質量評估必須最終通過其與主觀語音質量評估的相關性來確定其效能和可靠性,我們通常通過主觀和客觀語音質量評估的擬合過程做出上述判斷。擬合的過程是通過主觀和客觀語音質量評估輸入不同條件下的語音主觀和客觀值,然後對主觀和客觀值進行最小二乘擬合,其中水平軸上的目標值為目標值在垂直軸上。畫出語音的主客觀質量評價曲線,得出主客觀語音質量評價的比較關係。人們通常使用預測的均方誤差值來反映主觀和客觀語音質量評估的相關程度。預測的均方誤差值越接近,主觀和客觀語音質量評估之間的相關性越好,即,客觀語音質量評估的效能越好。相反,它表明主觀和客觀言語質量評估之間的相關性越差,即客觀言語質量評估的效能越差。

發展到現在以線下測試的線上化為主,具有高精度、廣覆蓋、低複雜度、強魯棒等特點。

  • 質量評估足夠準確

  • 覆蓋絕大多數業務場景

  • 不引入過多演算法複雜度

  • 和語音內容弱相關

上行鏈路質量評價方法:採集-AEC-NS-AGC-診斷,具有獨立檢測+統一檢測

特點:裝置採集穩定性、回聲消除能力、噪聲抑制能力、音量調整能力

下行鏈路質量評價方法:採用編碼-傳輸-解碼-播放

舉一個某實驗室的例子,其驗證資料繪製全球音訊質量地圖的核心指標有:編解碼器效能、網路質量、弱網對抗演算法質量、裝置播放能力。

其在多弱網、多裝置、多模式的測試 case 下,該方法的打分與 POLQA 的參考打分 MAE 小於 0.1 分,MSE 小於 0.01 分,誤差最大值小於 0.15 分

下圖是某裝置某模式的多弱網測試結果

某裝置某模式的多弱⽹測試結果

在這裡簡單說下 NOMA 吧,NOMA(Non Othogonal Multiple Access),NOMA 的理論基礎叫做多使用者資訊理論。NOMA 即非正交多址接入技術,是非常有希望的 5G 技術。其優點是可以提高頻譜效率(rate/bandwigth)和接入量,這恰好符合了即將到來的 5G 時代的爆炸性的資料增長和接入需求。在上下路鏈路質量評價方法中可以利用 NOMA 技術進行一個簡單的比較。

上下行鏈路質量評價方法比較

1. 使用者傳送功率的分配不同。

在下行 NOMA 技術中,每個使用者的傳送功率是受基站的總髮送功率以及其他各個使用者的傳送功率影響的,且對於通道質量不同的使用者分配的傳送功率不同(通道質量差即通道增益低的使用者分配得高發送功率,反之則分配得低傳送功率。

上行鏈路是每個使用者的傳送功率只是受到其裝置的最大的傳送功率影響。且對於通道質量有差異的使用者都讓其使用本身最大的傳送功率(即每個使用者都以自己最大的發射功率來發),通道質量差異很小的情況下則會採用在保證通道質量差的效能的同時提高通道質量好的分配方法,但是往往在這種情況下會對通道質量差的使用者造成不好的影響。

2. SIC 解碼順序不同。

在下行鏈路中,每個接收端都收到了來自基站的疊加訊號,且每個接收端都有自己的 SIC 接收機,對於接收到的訊號,通過連續的解碼,得到各自需要的訊號。對於某一個接收端來說,疊加訊號傳過來的時候經歷的通道是一樣的,所以在算速率的時候大家乘的通道增益是一樣的,這個時候則先解調接收功率最大的。

而在上行鏈路中的解碼順序則恰恰相反,因為發射使用者可以理解成硬體的發射機效能沒有差別,它們通道增益有高低之分,但是他們都會以自己的發射機的最大功率發射,這樣距離基站近的使用者的訊號到了基站那邊其接收功率更大(接收功率=發射功率 x 通道增益),這個時候則先解調接收功率最大的(也即通道增益最大的,因為此時發射功率一樣)。

解碼順序:會對通道質量好的(即在接收端接收功率大的)進行優先解碼;所以,在 NOMA 系統中,不管上行還是下行,在接收端優先解調的都是在接收端的接收功率最大的。

3、使用者所受干擾不同。

在下行鏈路中,由於通道質量差的使用者分配有高的傳送功率,所以通道質量差的使用者更容易在簇內對其他使用者產生干擾,即為通道質量好的使用者更容易受到干擾;

在上行鏈路中,由於是使用者各自給基站傳送訊號從而產生疊加訊號由基站接收,所以通道質量較差的使用者比通道質量較好的更容易受到干擾。

4、實現難易度不同。

上行鏈路相較於下行鏈路更容易實現。在 NOMA 技術中,要最終實現多使用者檢測和連續干擾消除,其中連續干擾消除需要通過 SIC 接收機區分不同使用者訊號接受功率來實現。對於下行鏈路來說,是由基站傳送疊加訊號到使用者,所以需要使用者終端來實現多使用者檢測和連續干擾消除技術;在上行鏈路則是由各使用者將各自訊號發至基站,只需在基站處實現多使用者檢測和連續干擾消除技術。使用者終端相較於基站而言處理能力過於有限,所以很難在使用者終端實現多使用者檢測及連續干擾消除。

如果對 NOMA 技術感興趣的小夥伴可以去搜下相關論文和資料學習下,定位就是有前景的 5G 技術。

下面簡單說下實時語音過程中漏回聲、噪音、雜音以及音量小的原因~

漏回聲的原因:

  • 在延時抖動過程中:可能會存線上程繁忙、裝置非線性嚴重、雙裝置、非因果等

  • 大混響環境:混響長度超出濾波器長度

  • 採集訊號溢位:導致濾波器不收斂

  • 雙講:強依賴 NLP,容易顧此失彼

噪音、雜音原因

  • 裝置噪聲:比如單頻音、工頻噪聲、筆記本風扇聲、無序雜音

  • 環境噪聲:Babble、鳴笛等

  • 訊號溢位:爆破音

  • 演算法引入:殘留回聲等

音量小的原因

  • 裝置採集能力弱\說話聲音小 (這個佔大多數)

  • 裝置播放能力弱

  • 模擬增益、模擬 boost 增益小

  • 數字增益小

最後在獨立監測模組可以分為:嘯叫檢測、雜音監測、噪音檢測、硬體檢測四大部分。

小展望

在未來我認為感知、反饋和監控一定會呈現一體化,也會變得更細、更廣、更快、更全;內部狀態也會變得更細、體驗覆蓋更廣、反饋速度會更快、覆蓋通話也更全。也相信我國 5G 技術和實時音視訊傳輸技術和質量評價體系會越來愈好。