1. 程式人生 > >體驗為王的年代,從視訊優化到QoE,機器學習實踐之路

體驗為王的年代,從視訊優化到QoE,機器學習實踐之路

內容來源:2018 年 09 月 07 日,上海交通大學教授宋利在“RTC 2018實時網際網路大會”上進行的《機器學習在QoE中的應用實踐》演講分享。IT 大咖說作為獨家視訊合作方,經主辦方和講者審閱授權釋出。

閱讀字數:3112 | 8分鐘閱讀

獲取嘉賓演講視訊及PPT,請點選:t.cn/EwQ9od6

摘要

本次演講將圍繞兩方面的技術進展進行剖析與分享,基於AI的視訊編碼及處理技術,以及視訊體驗聯盟近期推出的技術規範-uVES,和業內同行探討AI與QoE結合的新需求和新場景。

QoE

以前在服務行業中我們經常會講到QoS,而現在更多的是在談論QoE,即體驗為王的時代,從涉及內容來看QoE的維度更高一些。

QoE主要有3個影響因素。第一個當然就是主體了,以人為主體是QoE的標誌,如果是以客觀事物為主體,那就是QoS了。第二個是system,即承載QoE服務的基礎設施、通訊網路、編解碼。第三個是context,翻譯過來就是場景,在不同場景下QoE會有所不同。

QoE管理

過去我們通常會將QoE放在較低的位置,簡單對應的話,相當於測試工程師和開發工程師的關係,開發工程師開發完系統後由測試工程師進行測試然後反饋。QoE的管理除開測試和反饋外,還存在一個建模的過程,通過模型來實現自動化。

QoE評價

我們可以從不同的維度來看待QoE。首先是水平視角,上圖是典型的從頭端到使用者端的基本流程,源資料經過採集編碼後通過網路到達終端,最後呈現給使用者。其中所有的要素都會對最終體驗產生影響,若單獨考慮其中一個因素會不利於後續優化。

另一種是垂直視角,將QoE轉化成量化的指標,然後進行定量刻畫形成一個評價系統。上圖是在通訊領域中常用的指標分類方式,底層是原始資料引數,傳輸的是一些基本資訊,比如頻寬、抖動、網路等。第二層為KPI,這些是在監控的時候抓取的指標,比如bug指標、延遲指標。再上層為KQI,基於KPI生成的關鍵質量指標,還有KPI為涉及的部分,音訊、視訊、使用者互動等。最終這些綜合起來就是QoE。

QoE -> QoS

如果將QoS抽象成某一指標,那它與QoE的關係大致是上圖這樣。這條描述線和日常生活中的感受應該相差不大,就拿丟包來說,剛開始只有少量的時候,幾乎感受不到,到達某一階段後就逐漸下降,形成曲線。

曲線的刻畫有多種方式,上面是用的較多的幾個。在網路點選、下載速度等方面,weber Fechner Law繪製的曲線相對準確。IQX在網路丟包和網路質量上效果會更好些。這些方式主要適用於單指標的情況,多維度的時候效果不太好確定。

VQA-視訊質量評價

在視訊領域與QoE相關聯是VQA,VQA-視訊質量評價分為主觀評價和客觀評價。在做QoS之前要進行主觀評測,在大規模部署或商業應用的時候還需要有客觀評測。

在人工智慧之前,多媒體領域中學術界釋出了相當數量的VQA文章。有意思的是該領域中,學術界和工業界的有很大分歧,工業界很少會用學術界的成果。個人認為其中一個原因就在於資料集和側重點上,學術界可能更多的是在小資料集上進行測試研究,很難滿足工業界的各種場景。

上圖描述了不同的評價方式,對於規模化部署來說,最有價值的是無參考評價這條線。

uVES

視訊使用者體驗發展現狀

uVES的提出是鑑於當前視訊業務的快速發展下人們對使用者體驗的重視。從目前國內的情況來看,視訊產業正從強呼叫戶規模走向提升服務品質。

不過這其中也存在各種問題,比如不同服務商和內容商提供的視訊服務的使用者體驗存在差異,缺乏創業應用的統一標準;超高清視訊服務的使用者體驗比高清和標清視訊服務的使用者體驗存在更大的差距;編碼技術(AVS2,HEVC等)和新服務型別(HDR,AR,VR等)面臨新的挑戰。

ITU

其實在此之前ITU已經做了很多工作,而且像華為、中興、以及一些運營商在ITU中也有一定的貢獻,所以我們借鑑了很多ITU的組織結構。

在ITU中根據複雜度和應用場景,QoE和QoS又被進一步劃分為多個層級,包括規劃模型、包層模型、位元流成模型、媒體層模型,除開單獨適用外,還可以將他們混合應用。

簡單介紹下這幾個模型。媒體層模型是通過內容分析預測視訊質量(對比度、模糊度、色調),輸入為PVS,即處理後的音視訊序列內容。

位元流層模型是通過提取、分析視訊傳輸層編碼資訊預測視訊質量(複雜度、丟包、花屏引數),輸入為視訊劉的媒體載荷中的編解碼資訊或傳輸資訊。

包層模型通過分包頭資訊預測視訊質量(幀型別、大小、位元速率、卡頓),輸入為傳輸的包頭資訊。網路規劃模型通過業務KPI和業務KPI需求,推到出視訊質量。

國內-視訊體驗聯盟

視訊體驗聯盟是立足於國內產業的實際發展,以實用性和有效性為根本原則,致力於國內標準和國際標準的有效對接,以在國內建立全面的視訊服務使用者體驗評估體系,填補國內視訊服務標準的空白。

工作組成立後推出了一套基礎框架,我們稱之為uVES 1.0,從3個維度來刻畫QoE,視訊的顯示質量、視訊互動體驗、視訊觀看質量。uVES 1.1中又新增了4k相關的工作。

這是從縱向來看前面的3個指標,視訊質量涉及信源和編碼,觀看體驗涉及到傳輸和封裝的質量,互動質量涵蓋終端顯示和信令互動。最終我們就能獲得圖中下方這樣的計算公式,通過該模型我們能覆蓋VoD、BTV、視訊通話這3個應用場景。

這張圖展示的就是整個模型和演算法評價的方法和流程。首先是採集樣本訓練資料,然後將資料放入模型中,並根據模型設計的結果進行迭代,最後做規模化的評測和驗證。

視訊源質量

視訊源質量的影響因素涉及到3個模型,顯示質量Qs、壓縮質量Qcod、播放質量Qv。

Mode 0的引數很簡單,只有PPi、螢幕大小、 位元速率。Mode 1提取的資訊相對要多些,它要考慮到編解碼的問題。Mode 2的引數包括模糊度、對比度、噪聲這幾個指標。

(Mode 0模型計算公式)

(Mode 1模型計算公式)

(Mode 2模型計算公式)

互動體驗質量

(模型計算公式)

互動體驗的質量,影響因素主要在於視訊系統的響應速度,選單操作的響應速度等指標。這方面可以參考下所謂的“2秒定律”,即視訊載入在2秒內完成的服務是可以接受的,超過兩秒後,載入時間每增加1秒約有10%的使用者會選擇放棄,但時間達到10秒時大多數使用者會選擇放棄。

觀看體驗質量

對觀看體驗的影響,一方面在於由丟包造成的花屏,另一方面則是卡頓現象。不過根據使用者調研,發現受到過去使用慣性的影響,使用者對不同尺寸終端的觀看體驗不同,比如同樣是卡頓現象,在電視上的容忍度較低,在手機上容忍度就較高,使用者體驗受到的影響比較小。

(丟包情況模型計算公式)

(卡頓情況模型計算公式)

ML for QoE

對於視訊質量評價,前面提到的主要是網路層和一些簡單的模型,其實比較理想的情況是直接看視訊,機器學習在這方面經歷了3個典型的階段。最初是特徵加分類器,後續發展出了特徵統計,最近用的比較多的是用 CNN做特徵提取。

我們早期在低複雜度的場景中也用過特徵加分類器的方式,它的好處在於出現問題,能夠方便的定位原因。

以上為本次分享的內容,謝謝大家!(因為篇幅有限略有刪減,完整內容請看視訊)