1. 程式人生 > >音視訊前沿:新一代 AV1 視訊標準究竟是怎樣一種存在?

音視訊前沿:新一代 AV1 視訊標準究竟是怎樣一種存在?

AV1是開放媒體聯盟Alliance for Open Media (AOM) 開發的第一代視訊編碼標準,自推出以來獲得了產業界巨大關注和支援。騰訊多媒體實驗室也加入進來和其他公司團隊一同積極推動AV1編碼器的優化和落地,為客戶提供高效能和高效率的雲端編碼服務。本文是對騰訊多媒體實驗室專家研究員趙欣老師在「雲加社群沙龍online」的分享整理,希望與大家一同交流。

點選連結,檢視完整直播回放

一、視訊編碼的發展歷程

視訊編碼領域國際上有 4 個主流的標準組織:

1. 動態影象專家組(MPEG)

MPEG 組織隸屬 ISO 和 IEC,1988 年由 Hiroshi Yasuda(NTT) 和 Leonardo Chiariglione 建立,會員主要包括產業界,大學和研究機構。

2. 視訊編碼專家組(VCEG)

VCEG 隸屬國際電信聯盟(ITU),總部設定在瑞士日內瓦。會員包括產業界,1984 年建立,第一次會在日本東京舉辦。

3. 數字音視訊編解碼技術標準專家組(AVS)

AVS 是我國自己的標準組織。2002 年由國家原資訊產業部科學技術司批准成立,會員由 92 家大學和公司組成,成員單位集中在中國。第一次會於 2002 年在北京舉辦,近幾年逐漸獲得國際領域的關注,已有國外企業加入。

4. 開放媒體聯盟(AOMedia)

AOMedia 於 2015 年成立,會員包括 44 家公司,其中董事會包括 14 家公司,相當一部分成員為美國灣區的網際網路公司,由多媒體實驗室牽頭,騰訊 2019 年以董事會成員身份加入AOMedia,成為董事會成員中迄今為止唯一的一家中國企業。這也是騰訊在國際視訊標準舞臺上的里程碑之一。

標準組織推出的標準主要可以分為三部分,其中比較特殊的就是 ISO 和 IEC 旗下的 MPEG 和 ITU 旗下的 VCEG,它們之間有著千絲萬縷的聯絡。

這兩個標準組織都成立於上世紀的八十年代,最初分別推出了各自的一套標準,隨著業界對於統一標準的呼聲越來越高,便聯合推出了 MPEG-2及H.264/AVC 等標準,這也推進了流媒體行業的發展。

AVS 目前推出了三個標準,分別是 AVS1、AVS2 和 AVS3,這三個都是我國自主智慧財產權的標準,也是我國在視訊標準領域的一個驕傲。

第三個標準是 AOMedia,因為比較年輕,目前推出的唯一一個標準是 AV1。AV1 的前身是 VP-8 和 VP-9,這兩個標準是 Google 公司主要應用在流媒體業務上的私有標準。

關於VVC 的標準制定,騰訊於 2017 年底才開始投入,經過兩年多的努力,多媒體實驗室多人擔任 VVC 標準聯合主編,VVC 參考軟體聯席主席, 多項核心實驗召集人、多個專家小組主席等職位。騰訊在 VVC 標準的制定過程中,扮演了相當重要的角色。

AOMedia 則是由騰訊多媒體實驗室從 2019 年開始推動,並於同年 10 月騰訊以董事會成員身份加入。

下圖是國際主流視訊標準專利池的分佈情況。以 HEVC 為例,總共有超過 17000 件專利。專利池主要有三個,分別是 HEVCAdvance、MPEG-LA 和 VELOS。

 

在 HEVC 階段,專利池的局面是相當龐大並且複雜的。還有一些公司雖然投入了,但是立場比較微妙,遊走在三個專利池之外。因為向三個專利池繳納專利費用是非常昂貴的,這帶來了一個問題,就是流媒體產品出海會面臨一些風險。 

正是因為這種複雜的局面,導致了 AOMedia 的誕生。AOMedia 的主要目標就是開發免專利費的視訊編碼標準,所有加入 AOMedia 的企業都可以免費使用 AOMedia 旗下的標準。 

二、新一代 AV1 視訊標準

1. AV1 編碼技術

首先我們來介紹一下 AV1 的編碼技術。AV1 是 2018 年定稿的新一代視訊壓縮標準,它採用了所謂的混合編碼技術框架。 

 

AV1 的整個編碼系統是由很多的模組混合在一起構成的,每個模組是從不同的角度和手段,對影象不同方面的資料冗餘度進行去壓縮。所以不同的模組聯合在一起,相輔相成,實現比較高的效能,這就是混合編碼技術框架。

混合編碼技術框架所採用的的基本技術流程,就是比如說這是一個輸入的影象,它會先把這個影象以塊為單位劃分成多個塊,然後以塊為單位進行專案預測,預測完之後再進行變換,變換之後再進行量化和熵編碼,形成壓縮的資料。過去幾十年來編解碼的技術框架都是按照混合編碼技術框架來實現的。

(1)塊劃分 

AV1 編碼的塊劃分技術,就是把影象劃分成多個矩形塊,然後以塊為單位去解碼影象。在 AV1 中影象會劃分成 128x128 的單元,也就是最大編碼單元,簡稱 LCU。LCU 可以進一步的劃為四等份(SPLIT)或者二等份(HORZ,VERT)。四等份的子塊可以進一步遞迴劃分,並且每個子塊可以按照最多九種劃分方式進一步劃分為更小的單元。 

需要這麼多模式的原因,是因為影象的內容本身就是複雜多樣的,我們為了針對複雜多樣的影象進行最有效的編碼,就需要對影象進行同步的劃分。

通常一個物體有多個組成部分,通常需要把它劃分為多個部分,每個部分採用不同的預測模式,針對性的進行預測。

(2)幀內預測 

下面我們講一下預測的環節。所謂的幀內預測,就是去除影象之間的空間冗餘,所謂的空間冗餘就是一個畫素和它周圍的畫素有很強的相關性。比如白牆的顏色都是單一的顏色,每個點的畫素和其他畫素的趨勢非常接近,這就會導致一個很強的資料冗餘。幀內預測就是利用一定的技術手段來去除這種空間上的資料冗餘。

主要的方式包括以下五種: 

  • 方向預測模式

  • 遞迴濾波模式

  • Paeth 預測運算元

  • 交叉分量預測模式

  • DC 預測模式,平滑預測模式

方向預測就是假設影象有方向性的紋理,沿方向進行預測就可以把影象預測的比較好。

遞迴濾波模式是把影象分成細分塊的單位,每個單位會和周圍畫素行成一個濾波器,然後進行線性加權預測,這種模式下濾波的過程需要序列進行。

Paeth 預測運算元是當影象在區域性呈現平面的一個假設。另外還有交叉分量預測模式,這種模式主要針對顏色影象。顏色有三分量,每個分量之間具有很強的相關性。

此外還有 DC 預測模式和平滑預測模式。這兩種模式主要局勢針對平滑紋理的預測。

 

(3)幀間預測 

幀間預測是指不以影象上的時間的冗餘。所謂時間冗餘是指視訊是由一系列的影象順序播放完成的,所以構成了視訊。那麼為什麼順序播放可以構成視訊?因為在空間上他們屬於同一個產品、同一個內容,但是有一些運動上的差異,所以在資料上有非常強的相關性。

為了處理這種相關性,就會在 AV1 上引入仿射運動模型,模仿旋轉、縮放等比較複雜的模型。類似的還有重疊塊運動模補償、混合預測模式等。

(4) 變換

擴充套件的變換型別包括:DCT、ADST、IDT、Flip-ADST 這幾種。AV1 最多支援 16 種行列變換組合。

(5) 熵編碼 

熵編碼包含的主要新興技術是多符號(Multi-Symbol)上下文自適應算術編碼引擎,相比二值算術編碼引擎,單週期可提升熵編碼吞吐量。

(6)環內濾波

環內濾波包含去塊效應濾波、約束方向增強濾波和環路修復濾波。環路修復濾波包含維納濾波和自導向投影濾波。

(7) 調色盤模式

調色盤模式是指標對視訊影象的螢幕內容,亮度/色度取值稀疏,把影象進行索引編碼圖形塊。

(8) 幀內塊匹配

騰訊的 LOGO(Tencent) 中包含兩個 n 和兩個 e,影象比較複雜,如果把影象 n 編碼完之後,增加一個向量就可以預測另一個 n,效果會獲得提升。

 

2. AV1 編碼應用場景 

AV1 的一個重要應用場景就是流媒體。開放媒體聯盟中有很多流媒體公司,除騰訊以外還包括 Google、Youtube、Netflix、Hulu 還有愛奇藝等公司。Youtube 上目前高清視訊上線使用的就是 AV1 和 VP9 兩種編碼格式的組合,今年已經有采用 AV1 編碼的 8K 視訊上線。Netflix 自 2020 年 2 月起也支援 Android 上的 AV1 流媒體播放。

騰訊多媒體實驗室積極研發AV1編解碼的商業應用技術產品。去年騰訊視訊雲合作多媒體實驗室推出AV1直播與點播服務,騰訊視訊雲成為國內首家直播 + 點播同時支援 AV1 視訊處理業務的公有云廠商。此外多媒體實驗室聯合騰訊其他編解碼團隊一起推動AV1編解碼器在不同業務中的商業化落地。實驗室正在與騰訊視訊進行合作推廣AV1在產品業務中的應用。

在雲轉碼方面,AWS Elemental MediaConvert 在 2020 年 3 月宣佈支援 AV1 編碼格式。

三、AV1 標準與雲端編碼

 

在雲端編碼方面,AV1 有如下幾個優勢:

  • AV1的開源社群提供豐富的編碼器配置應對不同的業務需求,例如實時檔/非實時

  • 支援時域可伸縮性(Temporal Scalability)

  • 支援幀級超解析度編碼(SpatialScalability)

  • 免專利版權費,支援產品出海

在多媒體實驗方面,騰訊多媒體實驗室和騰訊雲、騰訊視訊展開合作。騰訊多媒體實驗室和騰訊雲正積極推進視訊 AV1 標準的商業應用。由多媒體實驗室推動,騰訊以董事會成員加入即將成立的 SVT Foundation,助力開源社群 AV1 軟體編碼。

下面我們簡單介紹一下下一代視訊編碼標準。 

首先是 Versatile Video Coding 標準,是由 ITU-T SG 16 WP 3 和 ISO/IEC JTC 1/SC 29/WG 11(MPEG) 聯合工作組 JVET 推出,2018 年 4 月份於美國聖迭戈(San Diego)會議正式啟動,2020 年 7 月標準文件定稿。

相比較上一代 HEVC 標準,達到 35% 的位元速率節省(相同 PSNR 質量前提下),參考軟體編碼時間 10 倍,解碼時間 2 倍。

騰訊多媒體實驗室在 VVC 歷時兩年多的標準化歷程中,獲得近百項技術提案採納,填補了騰訊 在國際視訊標準化領域的空白。騰訊多媒體實驗室多人在 VVC 標準化過程中擔任重要職位,包括標準聯合主編,參考軟體聯席 主席,多個核心實驗負責人,多個專家小組主席。

除了 VVC,還有 AOMedia Video 2 標準。

AOMedia 於 2019 年開始籌備下一代標準 AV2,下一代AV2標準的參考軟體平臺預計近期將推出。騰訊多媒體實驗室和 Google 聯合組織技術討論,成立編碼技術孵化組(Incubator Group) ,目前騰訊多媒體實驗室初步已推出三項編碼技術,相關工作發表在 ICIP 2020。

四、Q&A

 

Q:為什麼會有這麼多的編碼標準? 

A:這個和視訊編碼發展的歷程有關。最開始制定視訊編碼標準有兩個標準組織,分別是 MPEG 和 VCEG。它們分別開發自己的標準,這個對業界會產生一些困惑,所以後來兩個標準組織聯手集中資源和力量來開發一套共同的標準。

這套標準非常成功,在業界產生了非常巨大的影響力,蛋糕也越做越大,關注的公司越來越多,專利池的規模也是迅速增長。所謂分久必合、合久必分,後來為了應對這個複雜局面,促進技術的更新迭代,其它標準組織也應運而生,包括 AVS 和 AOMedia,主要是針對高昂的專利版權費產生的。

Q:AV1 會引導下一代視訊編碼的潮流麼?

A:個人認為下一代視訊編碼會是一個百家爭鳴的狀態。我們知道國際視訊編碼標準已經發展了幾十年,有非常完善的標準制定流程,參與者也非常眾多,技術實力非常雄厚,所以他們對標準的打磨功力也是積累深厚的。

AOM 是一個相對年輕的標準組織,它的技術力量投入目前來說相對集中一些。目前來說,對於下一代的AV2標準的技術研發,騰訊和 Google 的投入相比其它AOM成員而言更大一些。雖然AOM比較年輕,但是通過騰訊多媒體實驗室的力量投入,多家公司聯合起來在技術上不斷打磨,希望能夠下一代AV2標準的技術研發上作出更大突破。 

我覺得AOM最大的優勢是免專利版權費。如果想用複雜度更高的可以考慮國際組織標準,各取所需。我也希望未來各個標準組織可以進行一定的融合,求同存異,集中力量造福整個產業。

Q:免專利版權費是永久的麼?

A:開放媒體聯盟創立之初,目標就是專利版權費,但這其實是不容易的,會遇到一些挑戰。我們瞭解到其他非AOM會員公司也宣稱持有這樣的標準的必要專利。 

在開放媒體聯盟旗下的公司對業界的影響力是巨大的,免專利版權費是我們的一個宗旨,一個根本。

Q:AV1 相比其他有哪些優勢?

A:主要是效能上的優勢。AV1 和 HEVC、VP9 屬於不同代的標準,據我瞭解 AV1 與上一代標準相比有 20% 多的提升,這在頻寬上會有很大的一個節省。另外,對於新興的視訊業務,比如 8K 視訊,AV1 的效能優勢將更為突出。

Q:專利池的問題會長期存在麼?

A:這是一個困惑產業界很久的問題,並且不容易解決,所以才會有開放媒體聯盟的誕生。目前國際標準組織有所謂的組織來解決專利池的問題。目前我還沒有看到完善的解決方案,但大家已經意識到這個問題的嚴重性,積極的推動解決方案。希望今後在專利池的問題解決同事,產業界可以有效地利用新技術。

Q:AV1 軟體效率太低,後續能有多大優化空間?是否只能期待硬體編碼改善這個問題? 

A:軟體編碼效率我理解的是速度這種功耗上的效率,其實它的編碼效能還是相當可觀的。編碼效能的優化空間應該是沒有止境的,在前兩年,編碼器的優化迭代會比較快,但這是一個持續的事情。騰訊多媒體實驗在這塊也有很大的投入,希望能夠推動AV1軟體編碼器的發展和廣泛部署。另外,近期開放媒體聯盟內部也是持續的有好訊息,有非常顯著的效能提高。

Q:會有更多的硬體廠商支援麼?

A:我理解是會有的,而且是強力的支援。據我瞭解,在硬體解碼方面聯發科、三星、LG 都已經推出了相應的硬體解碼。在編碼當中,是有更大難度挑戰的,在硬體編碼器上,我們預期在今年年底或者未來的2-4年內會有更多硬體增長的支援。 

Q:騰訊多媒體實驗室是怎樣一個存在? 

A:騰訊多媒體實驗室,專注於多媒體技術及相關領域的前沿技術探索、研發、應用和落地。研究領域及產品研發方向包含音視訊編解碼、網路傳輸和實時通訊,基於訊號處理和深度學習的多媒體內容處理、分析、理解和質量評估,以及沉浸式媒體(VR、AR、點雲等)系統設計和端到端解決方案。實驗室持續為多項業務輸出核心技術和工程實現,涵蓋辦公、教育、文化旅遊、電競、泛娛樂等多個領域,服務千萬級DAU,並通過騰訊雲輸出通用解決方案及產品。實驗室同時負責國際國內行業標準制定,包含多媒體資料壓縮,網路傳輸協議,多媒體系統,5G和AI等。

騰訊多媒體實驗室擁有500餘件多媒體及相關領域全球專利(含專利申請),其中近200項專利被多媒體資料壓縮、系統和網路傳輸協議等國際標準採納。多媒體實驗室代表公司獲得多項世界組織蓆位,擔任包括國際8K協會董事,開放媒體聯盟(AOM)董事,DASH論壇董事長等職務。 

Q:目前都是靠軟解AV1 麼?

A:目前硬體解碼器已經有推出,包括聯發科的天璣 1000,還有三星和 LG 推出的 8K 電視都是內嵌了 AV1 的硬體解碼器。

Q:AV1 除了直播、點播等,還有哪些應用場景?比如醫療影像可以應用嗎? 

A:醫療影像因為有其特定的需求,比如需要影象的失真非常低,還有實時的操作等,如果影象出現瑕疵會對醫療診斷產生干擾,這是必須避免的。

在此之外,視訊應用的需求在開放媒體聯盟組織成員構成上也有一定程度的體現,目前還沒有看到有醫療影像公司加入這個組織。從技術本身來說,AV1運用在醫療影像是完全沒有問題的,AV1 是支援非常高質量的影象和視訊編碼。除過醫療影像、直播、點播等,凡是涉及到視訊通訊的應用場景,比如文化旅遊,教育等領域,以及VR全景視訊,8K視訊等新興應用場景AV1都有其用武之地,我們也希望AV1能夠廣泛應用在視訊通訊的各個應用場景,助力整個多媒體行業的發展。 

這也是騰訊加入開放媒體聯盟的初衷,如果希望標準組織可以考慮到公司業務的具體需求,就可以加入這個標準,反饋一些業務上的需求,這樣標準的制定就可以更好地符合特定業務的需求。

作者簡介

趙欣,騰訊多媒體實驗室專家研究員。負責新一代視訊壓縮演算法的研發工作及標準制定工作。自2017年加入騰訊以來,重點參與過新一代國際視訊壓縮標準H.266/VVC的制定工作,負責研發多項騰訊的專利技術並推動將其採納進入H.266/VVC標準,填補騰訊在國際視訊標準領域的空白。目前重點參與了騰訊AV1編碼器的開源協同專案和開源社群SVT編碼器的優化工作,並負責開放媒體聯盟(AOM)旗下的標準制定,包括下一代AV2標準的技術預研和標準籌備工作。

「雲加社群」公眾號,回覆“PPT”獲取老師演講PPT~<