用 AI 打破編解碼器內卷，高通最新頂會論文腦洞大開

阿新 • • 發佈：2021-10-02

用 AI 搞視訊編解碼器，現在路子有點“野”。

插幀、過擬合、語義感知、GAN…… 你想過這些“腦洞”或 AI 演算法，也能被用到編解碼器上面嗎？

例如，原本的演算法每幀壓縮到 16.4KB 後，樹林開始變得無比模糊：

但在用上 GAN 後，不僅畫面更清晰，每幀影象還更小了，只需要 14.5KB 就能搞定！

又例如，用插幀的思路結合神經編解碼器，能讓最新壓縮演算法效果更好……

這一系列演算法的思路，背後究竟是什麼原理，用 AI 搞編解碼器，潛力究竟有多大？

我們採訪了高通工程技術副總裁、高通 AI 研究方向負責人侯紀磊博士，瞭解了高通一些 AI 編解碼器中的演算法細節和原理。

編解碼器標準逐漸“內卷”

當然，在瞭解 AI 演算法的原理之前，需要先了解視訊到底是怎麼壓縮的。

如果不壓縮，1 秒 30 幀、8bit 單通道色深的 480p 視訊，每秒就要傳輸 80+Mbps 資料，想在網上實時看高清視訊的話，幾乎是不可能的事情。

目前，主要有色度子取樣、幀內預測（空間冗餘）和幀間預測（時間冗餘）幾個維度的壓縮方法。

色度子取樣，主要是基於我們眼睛對亮度比對顏色更敏感的原理，壓縮影象的色彩資料，但視覺上仍然能保持與原圖接近的效果。

幀內預測，利用同一幀中的大片相同色塊（下圖地板等），預測影象內相鄰畫素的值，得出的結果比原始資料更容易壓縮。

幀間預測，用來消除相鄰幀之間大量重複資料（下圖的背景）的方法。利用一種名叫運動補償的方法，用運動向量（motion vector）和預測值計算兩幀之間畫素差：

這些視訊壓縮的方法，具體到視訊編解碼器上，又有不少壓縮工作可以進行，包括分割槽、量化、熵編碼等。

然而，據侯紀磊博士介紹，從 H.265 到 H.266，壓縮效能雖然提升了 30% 左右，但這是伴隨著編碼複雜度提高 30 倍、解碼複雜度提高 2 倍達成的。

這意味著編解碼器標準逐漸進入了一個“內卷”的狀態，提升的壓縮效果，本質上是用編解碼器複雜度來交換的，並不算真正完成了創新。

因此，高通從已有壓縮方法本身的原理、以及編解碼器的構造入手，搞出了幾種有意思的 AI 視訊編解碼方法。

3 個方向提升壓縮效能

具體來說，目前的 AI 研究包括幀間預測方法、降低解碼複雜度和提高壓縮質量三個方向。

“預判了 B 幀的預判”

從幀間預測來看，高通針對 B 幀編解碼提出了一種新思路，論文已經登上 ICCV 2021。

I 幀：幀內編碼幀（intra picture）、P 幀：前向預測編碼幀（predictive-frame）、B 幀：雙向預測內插編碼幀（bi-directional interpolated prediction frame）

目前的編解碼大多集中在 I 幀（幀內預測）和 P 幀上，而 B 幀則是同時利用 I 幀和 P 幀的雙向運動補償來提升壓縮的效能，在 H.265 中正式支援（H.264 沒有）。

雖然用上 B 幀後，視訊壓縮效能更好，但還是有兩個問題：

一個是視訊需要提前載入（必須提前編碼後面的 P 幀，才能得到 B 幀）；另一個是仍然會存在冗餘，如果 I 幀和 P 幀高度相關，那麼再用雙向運動補償就顯得很浪費。

打個比方，如果從 I 幀→B 幀→P 幀，視訊中只有一個球直線運動了一段距離，那麼再用雙向運動補償的話，就會很浪費：

這種情況下，用插幀似乎更好，直接通過時間戳就能預測出物體運動的狀態，編碼計算量也更低。

但這又會出現新的問題：如果 I 幀和 P 幀之間有個非常大的突變，例如球突然在 B 幀彈起來了，這時候用插幀的效果就很差了（相當於直接忽略了 B 幀的彈跳）。

因此，高通選擇將兩者結合起來，將基於神經網路的 P 幀壓縮和插幀補償結合起來，利用 AI 預測插幀後需要進行的運動補償：

別說，效果還確實不錯，比谷歌之前在 CVPR 2020 上保持的 SOTA 紀錄更好，也要好於當前基於 H.265 標準實現開源編解碼器的壓縮效能。

除此之外，高通也嘗試了一些其他的 AI 演算法。

用“過擬合”降低解碼複雜度

針對編解碼器標準內卷的情況，高通也想到了用 AI 做自適應演算法，來像“過擬合”一樣根據視訊位元流更新一個模型的權重增量，已經有相關論文登上 ICLR 2021。

這種方法意味著針對單個模型進行“過擬合”，對位元流中的權重增量進行編碼，再與原來的位元流進行一個比較。如果效果更好的話，就採用這種傳輸方式。

事實證明，在不降低壓縮效能的情況下，這種方法能將解碼複雜度降低 72%，同時仍然保持之前 B 幀模型達到的 SOTA 結果。

當然，除了視訊壓縮效能以外，單幀影象被壓縮的質量也需要考慮，畢竟視覺效果也是視訊壓縮追求的標準之一。

用語義感知和 GAN 提高壓縮質量

用語義感知和 GAN 的思路就比較簡單了。

語義感知就是讓 AI 基於人的視覺來考慮，選出你在看視訊時最關注的地方，並著重那部分的位元分配情況。

例如你在看網球比賽時，往往並不會關注比賽旁邊的觀眾長什麼樣、風景如何，而是更關注球員本身的動作、擊球方法等。

那麼，就訓練 AI，將更多的位元放到目標人物身上就行，像這樣：

從結構上來講也比較簡單，也就是我們常見的語義分割 Mask（掩膜）：

這種方法能很好地將受關注的區域性區域幀質量提升，讓我們有更好的觀看效果，而不是在視訊被壓縮時，看到的整幅影象都是“打上馬賽克”的樣子。

據高通表示，這種語義感知的影象壓縮，目前已經在擴充套件到視訊壓縮上了，同樣是關注區域性的方法，效果也非常不錯。

而基於 GAN 的方法，則更加致力於用更少的位元數生成視覺效果同樣好的影象質量：

據高通表示，資料集來自 CVPR 中一個針對影象壓縮的 Workshop CLIC，提供了大約 1600 張的高清圖片，利用自研的模型，能在上面訓練出很好的效果：

也就是開頭的圖片效果，即使在大小被壓縮後，基於 GAN 的影象還是能取得更好的視覺質量：

期待這些技術能馬上應用到手機等裝置上，讓我們看視訊的時候真正變得不卡。

相關論文：

[1]https://arxiv.org/abs/2104.00531

[2]https://arxiv.org/abs/2101.08687

參考連結：

[1]https://www.qualcomm.com/news/onq/2021/07/14/how-ai-research-enabling-next-gen-codecs

[2]https://github.com/leandromoreira/digital_video_introduction

用 AI 打破編解碼器內卷，高通最新頂會論文腦洞大開

用 AI 搞視訊編解碼器，現在路子有點“野”。插幀、過擬合、語義感知、GAN…… 你想過這些“腦洞”或 AI 演算法，也能被用到編解碼器上面嗎？例如，原本的演算法每幀壓縮到 16.4KB 後，樹林開始變得無比模糊：但在用

日本小哥“痛苦面具”一夜爆火：用手柄控制自己的臉，網友腦洞大開

用遊戲手柄控（wan）制（huai）面部表情，是一種怎樣的體驗？按下 LB 鍵眨左眼，按下 RB 鍵眨右眼，還可以左右左右走一套連擊。（畫面為映象）是不是有點怪，再看一眼……搖動右搖桿，小哥瞬間就掌握了歪嘴戰神的絕技

Netty原始碼分析之自定義編解碼器

在日常的網路開發當中，協議解析都是必須的工作內容，Netty中雖然內建了基於長度、分隔符的編解碼器，但在大部分場景中我們使用的都是自定義協議，所以Netty提供了 MessageToByteEncoder<I> 與 ByteToMessageD

Netty4.x中文教程系列(五)編解碼器Codec

2019獨角獸企業重金招聘Python工程師標準>>> Netty4.x中文教程系列(五)編解碼器Codec

Netty 框架學習 —— 編解碼器框架

編解碼器每個網路應用程式都必須定義如何解析在兩個節點之間來回傳輸的原始位元組，以及如何將其和目標應用程式的資料格式做相互轉換。這種轉換邏輯由編解碼器處理，編解碼器由編碼器和解碼器組成，它們每種都可以

蘋果 iOS 15 Beta 5 釋出，Safari 瀏覽器新增支援 WebM 音訊編解碼器，將預設啟用

8 月 11 日訊息蘋果今日向iPhone和iPad使用者推送了 iOS 15/iPadOS 15 開發者預覽版 Beta 5 更新（內部版本號：(19A5318f)），本次更新距離上次釋出隔了 2 周時間。

高通釋出 aptX Lossless 音訊編解碼器，可通過藍芽提供 CD 級音質

9 月 2 日訊息高通近日釋出了名為 aptX Lossless 的藍芽音訊編解碼器，號稱可通過藍芽提供 CD 級音質。

Netty編解碼器&TCP粘包拆包

一、Netty編解碼器（一）Netty編解碼器概述　　1、Java的編解碼　　　　在Java中編碼（Encode）稱為序列化，它將物件序列化為位元組陣列，⽤於⽹絡傳輸、資料持久化或者其它⽤途。解碼（Decode）稱為反序列化，

位元組跳動宣佈推出 BVC1S 編解碼器，螢幕內容視訊編碼提速 2.87 倍

10 月 14 日訊息，今日，位元組跳動宣佈推出螢幕內容視訊編解碼器 BVC1S。據介紹，在遠端協作、虛擬桌面、雲遊戲等應用的編碼場景下，BVC1S 相比業界主流的 X265 開源編碼器可節省 85.3% 的位元速率，編碼速度提升

基本編解碼器

基本的編解碼器 Python自帶了超過100中編解碼器（codec,encoder/decoder)，用於文字和位元組之間相互轉換。

微軟加入 HEVC Advance 專利池，Win11 / Win10 使用者有望免費使用該編解碼器

12 月 26 日訊息，據網友 @肖戰割割投稿，HEVC.H.265 / 高效視訊壓縮（HEVC）是一種較新的視訊壓縮技術，聲稱可提供比舊壓縮標準高達 50% 的高壓縮率。近日，獨立許可管理員 Access Advance 宣佈微軟已成為 HEVC Ad

英特爾釋出 SVT-AV1 0.9 開源編解碼器，效能提升近一倍

1 月 23 日訊息，根據外媒 Phoronix 報道，1 月 21 日，英特爾與 Open Media 開放媒體聯盟，合作釋出了 SVT-AV1 0.9 版本編解碼器，針對 CPU 編解碼 AV1 格式視訊設計。新版本相比 0.8 版，效率提升明顯，並新增了

谷歌可能正開發新款 Chromecast 裝置：支援更多編解碼器

1 月 24 日訊息，根據外媒 9to5Google 的訊息，谷歌可能正在開發新款 Chromecast 裝置，有可能會在今年推出。該裝置代號為 Boreal，是 9to5Google 在對谷歌應用程式 APK 檔案拆解時發現的，同時在其他的洩露文件裡

【Netty】(9）---Netty編解碼器

Netty編解碼器在瞭解Netty編解碼之前,先了解Java的編解碼: 編碼（Encode）稱為序列化，它將物件序列化為位元組陣列，用於網路傳輸、資料持久化或者其它用途。

Netty學習之編解碼器

如果將訊息看作是對於特定的應用程式具有具體含義的結構化的位元組序列—它的資料。那麼編碼器是將訊息轉換為適合於傳輸的格式（最有可能的就是位元組流）；而對應的解碼器則是將網路位元組流轉換回應用程式的訊息格

JavaCV升級1.5.6之後遇到h265/hevc編碼的視訊無法開啟編解碼器avcodec_open2() error -1:Could not open video codec異常解決辦法

h265/hevc編碼的視訊無法開啟編解碼器問題遇到問題：升級或使用1.5.6版本的JavaCV後執行報avcodec_open2()error -1:Could not open video codec錯誤。

英特爾 SVT-AV1 開源編解碼器 1.0 里程碑版本釋出，支援 5 代酷睿及以上 CPU

感謝網友 OC_Formula 的線索投遞！

邁向三位數！火狐瀏覽器 Firefox 100 正式版釋出：Mac 上線 HDR 視訊，Windows 版支援 AV1 編解碼器

5 月 3 日訊息，火狐瀏覽器首個三位數版本 Firefox 100 今日正式釋出，帶來了一系列新功能和改進，包括多語言拼寫檢查、Mac 上的 HDR 視訊，以及 Windows 上的硬體加速 AV1 視訊解碼。Firefox 100 的主要更新如下：

ffmpeg 註冊編解碼器

學習資料 https://blog.csdn.net/u011686167/article/details/121723790 https://blog.csdn.net/ddddfang/article/details/89330895

網際網路行業反內卷，大小周、996、007 本不該出現

今日晚間，位元組跳動釋出內部郵件，正式宣佈取消大小周制度。位元組跳動表示，該決定將於 2021 年 8 月 1 日起施行，8 月開始有需求的團隊和個人，可以通過系統提交加班申請。此前，快手宣佈從 7 月 1 日起取消大小

用 AI 打破編解碼器內卷，高通最新頂會論文腦洞大開

編解碼器標準逐漸“內卷”

3 個方向提升壓縮效能

相關推薦