視訊直播質量的評測和實現分享---很好視訊評測知識
有一個古老的英語諺語叫A picture is worth a thousandwords,一張圖片所傳遞的資訊遠超文字,那麼一段視訊所傳遞的資訊,又遠超一張圖片。
在實際直播過程中,非常理想的情況是:,觀眾端和主播端是一模一樣的視訊。但是現實是無法做到的。有時,有延時、幀率低、卡住、綠屏、花屏的畫面。本文,將回答四個問題:
-
視訊直播中會出現哪些質量問題
-
這些質量問題是怎麼由來的
-
基於這些質量問題,我們怎麼評估直播的視訊質量
-
如何搭建視訊直播質量評估系統。
視訊直播中會出現哪些質量問題?
• 編解碼相關
– 糊,不清晰
– 運動跳躍
• 網路相關
– 延時
– 卡頓
• 交叉相關
見上圖,左上角右上角,可以看到很多塊效應;邊界的地方本來是一條直線,但冒出來很多虛假的邊界。右下角有顏色的擴散,原來的顏色是和那張圖的左上角一樣是灰色的,這些都是很普遍的視訊質量問題。這些都是很普遍的視訊質量問題。
這些質量問題是怎麼來的?
-
視訊的源不一樣。手機上的攝像頭作為直播或者通訊的輸入源,和比較高階的攝像頭作為輸入源,二者的輸入是不一樣的。在拍攝同一個物體,高階攝像頭有更強的處理能力,有很大的鏡頭,視訊的質量較高,畫質清晰,輸入噪聲較低。
-
壓縮標準的差別。使用不同的壓縮標準,編碼效率不一樣,會導致體驗效果不同。
-
引數選擇的差別。同樣的編碼器,不同的引數也會導致體驗效果不同。比如使用的是264編碼器,引數、幀率、位元速率、解析度的不同,都會導致質量差異。除此之外,還有傳輸網路、播放裝置也會導致質量差異。
直播是動態的畫面,那麼還要著重考慮幀率對畫面體驗的影響。
視訊直播的質量如何評估
1. 質量方法的種類
主要可以分為主觀評估和客觀評估兩類。根據測試的實時性,也可以分為離線和線上測試兩種。
主觀質量評估
主觀評估是利用人眼作為物件來進行的質量評判和得到MOS(Mean Opinion Score)分值。此類方法也被認為是最準確的,因為視訊播放的最終接收物件就是人眼。ITU-R和ITU-T這兩個標準組織分別制訂了BT.500和P.910標準。其中,BT.500主要被應用於視訊廣播而P.910主要針對於多媒體內容。
這兩個標準都詳細的描述了測試的環境,裝置,素材,人員,流程,結果等細節。雖然主觀評估的準確性較高,但是其多個缺點也是顯而易見的。例如,主觀評估需要多人較長時間的參與,開銷比較大;人眼和人腦會疲勞,從而導致在一定時間內能進行的測試量較少;人的主觀性也導致結果的可重複性會有一定的偏差。
上圖右側,是一個國外實驗室的設定。不能有外界光,主觀評估的人的觀看距離1.5米。播放一個視訊序列A,用I的方法處理,看10秒鐘,中間停隔兩秒,再用G的方法處理,看10秒鐘,評估人有10秒時間打分,I好還是G好,I比G好多少,一般五分制。接下來,在繼續為視訊序列B打分。一般這樣的測試,需要40人蔘與。缺點顯而易見的,開銷很大。同時,這個測試也規定了每個人評估的時間不能超過半小時,會造成評估人疲勞,就不會細摳前後兩個視訊到底有多大的差別。同時,不同人評估的準則也不一致。高。
我們曾經做過一個實驗,一個一模一樣的設定,讓評估人看過之後,過了一個月以後再重新看一遍。他打分雖然很接近,但是不完全一樣的。
那麼,難道說主觀評測不是那麼重要嗎?其實也不盡然。主觀評估的結果經常被用來作為客觀評估的指導性標註值。
客觀質量評估
客觀評估是利用一些數學模型來模擬主觀評估結果的方法。該方法的測試是不需要人們的介入的,也就是說在不改變引數的情況下,對於同樣的輸入,每次測試的結果都是一模一樣的。客觀評估的方法可以只需要一段計算機程式或硬體就能夠實現。根據利用原始視訊的資訊多少,客觀質量評估方法可以分為以下三類。
-
FR(Full Reference):此類方法是基於原始影象和壓縮後圖像同一位置的每一個畫素比較和運算得到的客觀質量評分。通常來講,該類方法被認為是最準確的。著名的PSNR(Peak Signal-to-Noise Ratio )和SSIM(Structural SIMilarity)都屬於此類。但是研究表明,PSNR與人眼MOS的相關性大約只有70%,而SSIM也非常有爭議。最近幾年,標準化組織VQEG(Video Quality Experts Group)制訂了VQM和PEVQ標準,它們與人眼MOS的相關性可以達到90%以上。
-
NR(No Reference):然而FR評估方法的最大問題在於,很多應用場景下,視訊接收或播放端沒有原始訊號的資訊,從而無法利用該方法。NR的方法只利用解碼後的視訊訊號來估計視訊中可能存在的質量問題。顯而易見,此方法可能會極不準確。
-
RR(Reduced Reference):該方法能夠對原始視訊和解碼視訊提取一些特徵進行比較,從而計算出客觀評估分值。在一些無法得到原始視訊的應用場景下(如流媒體視訊或者視訊通訊),可以通過有限頻寬傳輸這些原始視訊的特徵,再提取相同的接收端解碼視訊特徵,與原始視訊的特徵比較來預測評估當前視訊的質量。
主客觀質量評估的配合
在視訊編解碼標準的制定過程中,PSNR具有不可替代的地位。這是因為PSNR的相對客觀性代表著壓縮演算法的保真性。所以在標準制定會議中不同技術的比較和採納,都會基於著名的BD-Rate/-PSNR來評判。該方法根據兩條RD(Rate-Distortion)曲線計算得到或同樣PSNR下位元速率的差,或同樣位元速率下PSNR值的差。通常情況下,BD-Rate甚至可以來評估0.3%左右的壓縮效率的提高,而這些細微的差別是無法體現在主觀質量上的。
在某一個標準制定的尾聲,一般都會安排相應的主觀評測。這一測試是用來真正體驗制定中的標準與前一代標準的主觀視覺質量的提高。通常情況下,一個新的標準需要在保持相同視覺質量下能夠只需要前一代標準的一半位元速率。這樣的改進是巨大的且很容易通過主觀評測來體現的。此外,還有一些編解碼技術從原理上就是會降低BD-PSNR,但會提高主觀視覺質量。這類技術的評估從一開始就必須遵循主觀評估標準。
視訊質量評估的作用
視訊質量評估的應用可以大致概括為兩類,視訊處理和編解碼技術的改進,視訊編解碼系統的選型。
對於視訊處理和編碼技術的改進,一部分的應用就如之前所說的標準制定中的技術的對比和競爭。然而,在標準制定完畢後,質量評估對於編碼器的實現也是具有非常重要意義的。因為標準中包含的各種編解碼技術,以及有些純編碼技術,如快速運動搜尋(FME)和快速模式選擇(FMD),對於某種特定的應用是需要按照實際效果來選取的。尤其是在計算資源或晶片大小受限的情況下,需要通過質量評估來進行工具的取捨。
對於那些利用視訊編解碼系統進行更高層次的應用,如流媒體系統,視訊直播系統,視訊通訊系統等,質量評估對於視訊編解碼系統的選型是尤為重要的。特別要提及的是,不同應用下必然會對視訊編解碼有其特殊的需求和限制。如果盲目的遵循某一個測試標準而忽略實際應用下的特定需求,則該測試將丟失其意義。
通常來講,針對實際應用的視訊質量評估方法必須是公平的,可重複的,貼近現實場景的。回顧BT.500和P.910標準,不難發現它們也具備了上述的特點。但是由於這兩個標準的制定時間點,其針對的應用物件也和現在的應用有所差別,所以評估方法也需要與時俱進,有所修改和增加。
視訊直播應用評估系統的設計和實踐
視訊直播是近些年來基於公共網際網路的另一個重要的視訊應用。它與實時視訊通訊具有一定的相似性,比如網路中不穩定的頻寬、延時和丟包會對觀眾端的主觀感受帶來很大的影響。所以上述的視訊編碼質量和均勻性,視訊的流暢性和均勻性,端到端的延時,首幀出圖延時,脣音同步等指標都是視訊直播所需要滿足的。
同時,視訊直播有其區別於通訊的特性。例如,在單人主播時,延時就不需要那麼嚴格,其評估標準可以適當放開,而在不同的頻寬情況下,觀眾都期望能有視訊內容的展示,所以直播對於網路情況的適應性就顯得非常重要了。此外,在東亞流行的娛樂性移動視訊直播應用中,美顏是不可缺失的視訊前處理部分,相應的美顏質量也需要被考慮在質量評估中。
連麥是最近一段時間內視訊直播的一個新熱點。仔細分析其特點,不難得出主播間的視訊質量需要利用前面所述的通訊質量評估方法,而多主播對於觀眾的視訊質量則需要採用直播的質量評估方法。
在明確了視訊質量評估系統的物件和目的後,就需要像標準化組織那樣制定一套公平的,可重複的,貼近現實場景的視訊質量評估系統和測試方案。
本文就將以基於公共網際網路的視訊通訊和直播系統為物件進行視訊質量評估系統的設計和實踐。目的是希望該評估系統能夠比較不同通訊或直播系統/解決方案的優缺點,同時給出可以改進的方向。所以提出的評估系統和測試方法必然會立足於以往成熟的技術,但也會有其獨到之處。
1. 視訊質量評估系統的搭建
對於不同技術方案,希望能夠利用同一個視訊輸入,然後經過一系列的前處理,編碼,傳輸,解碼,後處理,觀察不同方案的顯示結果進行比較。為了達到公平的目的,不同測試物件的測試環境應儘可能的接近,同時能夠錄製對比物件的螢幕輸出到同一視訊檔案中,這樣就能夠做到並排(side-by-side)的評估。
裝置
-
視訊的輸入:如果是移動端的應用,則建議利用手機或平板自帶的攝像頭,因為這樣最貼近實際應用場景。如果應用場景相對專業且為了追求完全一致的輸入,可以採用HDMI攝像頭+HDMI分配器+HDMI轉USB轉接頭作為PC或MAC的視訊輸入源。比如,用高階HDMI攝像頭,可以把分配器轉接成8路,這種方法適用於PC或者MAC端。移動端能做到的就是儘量讓攝像頭靠攏,儘量拍攝同一個畫面。
-
視訊處理,壓縮和傳輸:這些是評估系統的測試物件,包括了不同測試方案的應用程式和網路傳輸架構,相對於評估系統是一個黑盒。
-
網損裝置或軟體:用於模擬一些常見的網路情況,如頻寬變化,丟包,延時等。可以利用網損儀,Linux Traffic Control或者iPhone開發者設定中的Network Link Conditioner。
-
視訊的輸出和顯示:根據應用場景選擇移動端或是電腦的輸出,合併不同方案的幾路視訊為一路輸出,進行side-by-side的比較。由於現在的移動端顯示解析度也非常高,所以推薦4k顯示器進行合併視訊的顯示裝置。
-
視訊的錄製:多路移動端或是電腦的顯示輸出可以通過轉接頭接入Blackmajic Multiview裝置合圖。合圖後的輸出接入Blackmajic UltraStudio後可以利用Mac上的軟體進行合圖錄制。這樣最終可以錄製出高達16路視訊在同一畫面下的接近無損畫質的視訊檔案以供分析評估。
其他輔助裝置
-
磁懸浮地球儀:有的時候測試需要反覆進行而同時希望儘量減少人的干預,例如測試視訊的拍攝物件如果是人的話,很難保證其運動的可重複性和均勻性。所以推薦利用自動旋轉的磁懸浮地球儀。它的運動是均勻的且人眼對其運動的感知是具有先驗知識的。當視訊產生丟幀或延時的時候是比較容易覺察到的。
-
色度圖:前處理或者編碼有時會對攝像頭拍攝的色度資訊有所改動,為了能夠檢測到色度的失真情況,可以利用色度圖作為拍攝物件。有時為了簡便的測試端到端的延時,可以利用精確到毫秒級的電子時鐘,在一端拍攝而在另一端接收解碼播放,將本地預覽和解碼播放的影象同時錄製下來就能夠得到當時的延時資料。
-
毫秒級電子時鐘:主播段播放電子時鐘,觀眾端觀看,同屏錄製,比較這兩個時鐘,可以看出延時是多少毫秒。
環境
在我們所談及的這些基於公共網際網路的視訊應用中,通常都是為一般消費者服務的。所以測試環境不需要特別專業,但是要求貼近現實。這和BT.500和P.910標準所規定的有所差別。舉例來說,測試中不一定需要保持嚴格的觀看距離和照明條件,因為在現實情況下各種可能都會發生。但是測試的素材需要和實際情況相近,例如對於實時視訊通訊的應用,人臉應該出現在攝像頭前;娛樂性直播的應用下,需要提供足夠的照明和美顏功能;遠端教育的應用下,白板和教師板書應也是重點拍攝物件。
人員
由於專業人士的視覺感知行為是多多少少被訓練過的,有時候會過於專注某些不太會被非專業人士發現的細節。所以視訊質量評估中的人員組成取決於測試的目的。如果測試是為了改進視訊編解碼演算法,則專業人士的意見會是重點。如果為了比較不同視訊應用或系統的優缺點,尤其是一般消費者級別的應用,則非專家的意見應占據主導地位。
如何進行視訊質量評估
下面就以娛樂性視訊直播為例介紹視訊質量評估的流程。其中,假定需要對比兩套手機端的視訊直播系統,所以一共需要四臺手機,其中兩臺作為主播,另外兩臺作為觀眾。通過接入上述的評估系統,可以在一臺4k顯示器上同時播放4臺手機的畫面並進行錄製。
由於手機無法接入外接攝像頭的輸入,為了得到非常接近的視訊輸入源,建議按下圖方式安放手機,這樣可以使兩個前置攝像頭儘可能的接近。當然如果對這樣的方式也還有所顧慮的話,可以將兩個手機位置互換,多做幾輪測試來觀察攝像頭位置對測試結果的影響。
開啟四臺手機的測試app,扮演主播角色的人員面對主播端手機,觀眾端連線上主播端觀看直播,開啟四屏合一的錄製。可以將磁懸浮地球儀和電子時鐘擺放在主播端的畫面中用於測試運動的均勻性和延時。
測試中,可以利用Linux Traffic Control來改變手機接入的無線網路路由器的上下行丟包率和頻寬,觀察不同app在各種情況下,視訊質量和延時的變化。由於在測試中,四個手機的螢幕都被錄製在同一個幾乎沒有視訊質量損傷的視訊檔案中,所有詳細的對比也可以在錄製完成後反覆觀看比較。
在這個視訊質量評估測試中,可以得到的客觀資料有,主播端到觀眾端的延時,可以細化為最大延時,最小延時,網路情況變化下的響應時間等;觀眾端的視訊幀率,這是因為錄製的視訊是60fps而一般的直播視訊幀率在15fps至30fps之間,還可以細化為最大幀率,最小幀率,幀率的波動等。
通過播放錄製的視訊,還可以進行side-by-side的對兩套系統的視訊質量的主觀評分。這裡可以採用傳統的5級量表,5代表左邊遠好於右邊,4代表左邊略好於右邊,3代表左右一樣好,2代表右邊略好於左邊,1代表右邊遠好於左邊。要明確的是,播放對比視訊進行主觀評估時,還需要遵循貼近現實的原則,如視訊播放的視窗大小應該保證每個手機頻幕的尺寸都應和實際手機的螢幕尺寸接近,評估者的觀看距離也應當和實際情況一致。
本文作者:樓劍