業務爆發式增長,音視訊服務如何做好質量監控與優化?
摘要:雲原生時代,視訊直播、實時音視訊通訊等線上音視訊服務面臨各種複雜的網路環境和流量爆發式的增長,對音視訊質量監控和成本優化提出新的嚴峻挑戰。
2020年是不平凡的一年,客觀來說它促進了我們音視訊業務的爆發式增長。華為雲基於大容量、低時延、全互聯的媒體網路,通過全國的2000多個節點和幾百T的寬頻,和我們的客戶一起服務了億級線上使用者。在這個過程中,通過大資料提升視訊體驗質量和成本優化顯得尤為重要,同時華為雲也積累了一些經驗。今天來自華為公司,在大資料和音視訊業務領域有十多年研發經驗的康永紅,將和大家分享雲原生時代,華為雲在音視訊質量監控與優化方面的實踐。
本次分享主要分為四部分:
第一部分是雲原生時代如何快速構建音視訊資料服務體系;
第二部分是華為雲直播和RTC音視訊服務體驗質量優化實踐;
第三部分會介紹華為在雲原生時代是如何快速構建音視訊服務全流程質量監控平臺;
最後總結和展望音視訊業務體驗質量的思考和技術規劃。
音視訊體驗發展趨勢及背後技術支撐的挑戰
從音視訊體驗的發展趨勢來看分為直播、RTC和XR三代,可以歸納為兩個特點:第一點是使用者體驗越來越真實,傳輸解析度從720P到1080P、再到XR的4K、6K、8K、乃至更大;另一點是業務要求互動性越來越強,遲延方面從30s到XR不超過100ms,對延遲要求更低。
基於以上質量體驗的發展趨勢,我們需要有一個後臺技術支撐。我們在使用大資料解決支撐的過程中也經歷了三個階段:首先是5年前用大資料平臺解決技術問題,其次是在3年前用資料中臺解決效率問題,第三個階段是最近兩年我們綜合1.0、2.0時代的特點,採用“中臺+可信資料服務”的資料服務中臺模式解決價值問題。我們認為資料服務中臺是解決業務差異性和市場不確定性的最佳框架。
在直播中我們經常會碰到卡頓、實時音視訊通話延遲等情況,這些問題都會嚴重影響使用者體驗。解決這些問題的一般方法是構建音視訊質量監控平臺,採集資料,用大資料的方法解決監控質量問題。在這過程中,我們又會碰到一些新的問題,比如採集資料延遲很大、丟失很多、資料不準確,此外還包括大資料算力不夠、交付時延比較長等等問題。這些體驗和技術問題帶給我們很多挑戰——包括會在什麼場景出現這些問題,無法精準確定是網路問題、裝置問題還是環境問題,以及這些問題影響了哪些客戶等等。
那我們要怎麼解決這些問題呢?在端+邊緣計算+雲端計算的雲原生時代,技術上已經給了我們一些解決方法。最好的實踐是基於“資料湖+資料服務”的雲原生資料驅動能力,去解決業務差異性和市場不確定性。這套架構分為六層,我們通過這六層去解決後臺系統的相對穩態及前端業務穩態之間的矛盾。
架構落地的具體實踐是基於雲服務基礎設施,首先我們構建了統一的音視訊資料湖,同時構建從採集、生產到消費的資料價值鏈,通過這兩者結合,支援所有同時線上的幾大類服務接入,和麵向內外部七類客戶,以及包括運營、運維等客戶資料服務的QoS、QoE、QoC等三大類七小類的場景訴求。當然僅僅基於這個架構開展體驗質量優化工作是遠遠不夠的,這只是技術上的解決方法。
音視訊服務體驗優化三步走:監控、診斷、提升
從在業務角度出發,我們認為QoE體驗是一個管理的問題,我們在業務上需要做一些設計,這塊我們構建了音視訊服務的體驗體系,大致分為兩個大的階段和三個小的階段。兩個大階段是先診斷、再提升,在診斷中分為監控和診斷兩個小階段。
具體展開來看,首先需要構建QoE、QoS的立體實時監控體系以及輔助AI的異常檢測方法,做到實時發現問題。第二步在發現問題後用秒級診斷能力,快速診斷體驗原因,這個原因可以具體到使用者行為級。基於診斷結果,第三步就需要做體驗提升,一般有兩種方法:第一種是依靠人工經驗做優化,另一種方法是智慧排程,我們在面向不同行業、不同場景的情況下,基於智慧排程策略在成本可控的情況下做到使用者體驗最優。
基於上述體驗質量優化體系,接下來我將具體展開分享華為雲在視訊直播和RTC實時音視訊方面的體驗優化實踐的案例。
音視訊服務體驗優化實踐1——直播體驗優化
我們首先看一下華為雲視訊直播體驗優化實踐案例,我們在做到低時延、不卡頓、高清晰的同時,還實現了成本可控。總體分為三個階段:第一階段質量監控,第二階段問題診斷,第三階段體驗提升。
視訊直播的質量監控,我們首先構建了覆蓋流質量、體驗、規模、網路、成本、裝置六個維度的立體質量監控體系,涵蓋了QoE、QoS、QoC三十多個指標,其中包括幀率、位元速率等核心的QoS指標,秒開率、卡頓率等QoE體驗指標和頻寬、回源率等成本QoC相關的指標。
第二個階段問題診斷——視訊直播的秒級質量診斷,這是基於網路資料+端資料構建的直播流全鏈路監控體系。診斷流程貫穿了第一公里主播端監控推流幀率等QoS指標,到網路節點間幀率、位元速率等QoS質量指標監控,頻寬回源率、成本指標,以及最後一公里觀眾端卡頓、秒開、黑屏等QoE指標。這樣就實現端到端實時的秒級監控,如果發現異常情況可以及時反饋給顧客和排程系統,比如我們在第一公里發現幀率、位元速率出現異常,就通知客戶在主播端進行策略調整,如果實在網路發現異常,就做一些節點使用者資料調動或其他策略的優化,而當觀眾端出現體驗異常時,智慧排程系統會做排程策略的調整。以上整個全鏈路監控系統覆蓋了12路直播全場景和全協議監控。
直播流全鏈路監控系統——從第一公里、到媒體網路、再到最後一公里,整個都是視覺化的,這樣可以提升問題診斷的效率。
第三步體驗提升,視訊直播體驗提升大致分為兩種方法。其一是通過運維同學的經驗實施,另一種方法是基於智慧排程系統——基於端、邊、雲資料協同做智慧排程體驗優化,這種方法利用了統一視訊資料湖技術,實現端、邊、雲的QoS、QoE、QoC資料的協同,通過智慧分析引擎生成流、客戶、網路鏈路、節點、觀眾的實時畫像,基於實時畫像+排程策略由智慧排程系統實施智慧排程,在成本可控的情況下做到最佳體驗。衡量指標主要選取兩類指標,一類指標是成本指標,比如通過回源率來衡量成本是否下降;另一類指標為體驗指標,通過卡頓率、秒開率等判斷使用者體驗是否有提升。以上是視訊直播在質量監控和體驗提升的一些實踐案例。
音視訊服務體驗優化實踐1——RTC體驗優化
接下來分享實時音視訊RTC的體驗優化的實踐案例。RTC屬於第二代音視訊業務,它和第一代直播在業務方面有很多差異,比較關注時延以及行為級的監控,基於這些差異性,我們也採用了三個不同優化體系。
第一點是質量監控,RTC質量監控體系建立了覆蓋通話、網路、成本、裝置等六個維度的立體質量監控體系,覆蓋QoE、QoS、QoC三十多個指標。其中核心指標包括等位元速率、幀率、丟包率、抖動質量QoS指標和秒開率、時延、卡頓率、入房和選看成功率等使用者體驗QoE指標,以及頻寬等成本QoC指標,與直播監控指標相比,特別是端到端的時延指標,這是基於前面提到的差異性著重關注的。
基於監控體系,第二個工作是問題診斷,我們首先建立了三類體驗質量資料服務,第一類是監控指標資料服務,主要覆蓋的是服務端、客戶端、裝置、QoE、QoS、QoC,這些資料放在統計庫、時序庫中使用。第二類是網路端所有控制面和媒體面的事件資料服務。第三類是終端事件資料服務,包括終端側使用者行為事件,例如加入房間、切換角色、操作麥克風或攝像頭等事件,此外還包含了終端裝置資料,例如CPU、記憶體、攝像頭等。
基於這三類體驗質量資料服務,RTC構建了三層問題診斷體系。
第一層構建是覆蓋全鏈路、全維度的QoE/QoS實時監控體系,可以在分鐘級完成體驗診斷和快速恢復問題。
第二層監控體系是基於網路行為資料和端側行為資料的一鍵式使用者個例通話QoS調查能力,它可以幫助我們快速解決RTC業務單使用者的體驗問題和投訴。
第三層問題診斷能力是在第一層QoE/QoS全域性指標監控和第二層QoS行為調查能力基礎上的體驗問題自動診斷高階能力,它通過監控三十多個指標產生二十多個異常事件,並通過學習模型,給出影響的六類體驗場景。這樣系統就可以快速自動化地判斷出體驗發生異常的原因,並且快速傳遞給客戶。
如何構建音視訊服務全流程質量監控平臺?
上述介紹的是華為雲RTC業務體驗優化的實踐案例,做體驗質量優化工作是需要平臺完成的,我們下面來分享華為是如何構建音視訊服務全流程質量監控平臺的。首先從資料採集、傳輸、計算到消費四個環節的億級規模音視訊質量監控大資料平臺,包括支援端、邊、雲全資料採集和傳輸的資料網路,支援實時計算、離線計算和機器學習的多模資料處理系統,以及支援運維、運營、客戶的資料消費服務體系。
在構建平臺時,會遇到很多效能、質量、效率以及實時性的問題,如何構建一個大容量、低成本、高效率和可信資料質量的平臺?我們採用了批流一體和存算分離的架構。批流一體解決的是開發效率的問題,我們同一個指標可能在批流一體中計算一次就可以對所有服務使用,不需要重複開發,同時我們有一站式資料開發平臺可以解決開發效率的提升。成本問題上我們採用的是存算分離——儲存和計算是分離的,儲存採用的是物件儲存,價格相對低廉,計算引擎採用的是前面介紹的批流一體的方式,這樣可以做到成本最佳。質量方面是採用了“ODS-DWD-DWS-ADS”四層資料治理平臺,保證所有資料可跟蹤、可管理,確保任何指標資料都是實時、完整、準確的。
在有了大容量、低成本的平臺後,我們還面臨斷網、裝置故障等問題。我們在平臺可用性上基於雲服務實施,採用跨Region主備容災和多AZ模式,整體SLA可達99.99%,來自端、邊緣、雲等全部六類資料不丟失,監控、排程等六類服務不降級。這樣我們在整個環境下,任何環節出現異常,在質量和服務提升上都可以正常工作。
如何持續保證音視訊體驗質量三大利器?
回顧本次分享,音視訊體驗發展有三個特點:第一,使用者對體驗的要求是真實感越來越強,直播、RTC等使用者要求更高;第二,在使用者體驗上要求越來越互動;第三,面對各種網路、終端業務環境越來越複雜。
為了保證音視訊體驗質量,我們有3個利器:第一,針對不同業務場景,構建“先監控再診斷後提升”的體驗質量體系;第二,基於“資料湖+資料服務”解決使用者差異性和市場不確定性的問題;第三,在實施過程中要平衡成本和體驗的關係。
對未來音視訊業務體驗我們有三點規劃方向:一是持續基於端、邊、雲資料協同來驅動QoE、QoS、QoC優化;二是構建音視訊內容質量的智慧評估體系;三是建立第三代XR音視訊體驗質量規範,如沉浸感等。
本文分享自華為雲社群《雲原生時代,解密華為雲音視訊質量監控與優化實踐》,原文作者:音視訊大管家。
點選關注,第一時間瞭解華為雲新鮮技