1. 程式人生 > 其它 >2022 Neural Network-Based Enhancement to Inter Prediction for Video Coding

2022 Neural Network-Based Enhancement to Inter Prediction for Video Coding

概述

幀間預測是混合視訊編碼框架的關鍵組成部分,旨在利用視訊序列中的時間冗餘,提高編碼效能。在相互預測過程中,通常使用運動估計和運動補償從參考影象中得到一個預測塊。為了提高預測的編碼效能,該文提出了一種基於神經網路的預測增強(NNIP)。NNIP由殘差估計網路、組合網路和深度細化網路三種網路組成。

1. Framework of NNIP

NNIP的輸入為當前塊和預測塊的空間相鄰L形,以及預測塊,分別用\(L_C\)\(L_P\)\(P\)表示,如圖2所示。預測塊是在傳統的內部預測中使用運動補償來生成的。NNIP的輸出是一個精煉的殘差。

2. Residue Estimation Network

殘差估計網路的目的是捕獲當前塊與其預測塊之間的變化。由於當前塊尚未被重建(解碼端),因此無法直接推匯出當前塊與其預測塊之間的變化。因此,提出了殘差估計網路,利用空間鄰域L-形狀來估計殘差。

本文利用一個全連線網路(相鄰不規則畫素區域,卷積也無法使用)實現了殘差估計網路。如圖3所示,殘差估計網路的輸入值分別為\(L_C\)\(L_P\)\(L_C\)\(L_P\)分別由當前塊及其預測塊的左、左上、上方的相鄰畫素組成。殘差估計網路的輸出是估計的殘差。殘差估計網路由四個全連通層組成。除了最後一層外,每一個全連線的層之後都有一個非線性的啟用層。

對於大小為N×N和寬度大小為M的L區域,第一層的維度為\(K=4MN+2M^2\)

\(L_C\)\(L_P\)被重塑為\(K\)維向量作為輸入。第二層和第三層的維數為\(2K\)。最後一層是\(N^2\)維的。輸出被resize為一個N×N塊。

用R表示殘差估計網路。R的輸入和輸出用\(X={L_C,L_P}\)\(R(X)\)表示。\(R\)可以描述如下:

\[R_1(X)=f(W_1^{(R)})\cdot X+B_1^{(R)} \\ R_i(X)=f(W_i^{(R)}\cdot R_{i-1}(X)+B_i^{(R)}), 1<i<4 \\ R(X)=W_4^{(R)}\cdot R_3(X)+B_4^{(R)} \tag 1 \]

其中,\(W_i^{(R)}\)

\(B_i^{(R)}\)是第\(i\)層的權重和偏差引數。\(f()\)是一個非線性對映函式。

3. Combination Network

本文設計了一個組合網路,首先提取估計的殘差和預測的塊的特徵圖,然後將這些特徵圖連線在一起。因此,可以充分利用預測塊中的紋理資訊來指導深度細化網路中的殘差細化。圖4描述了組合網路的結構。輸入是估計的殘差和預測的塊。輸出是連線的特徵對映。組合網路由卷積神經網路實現,由一個卷積層和一個連線層組成。卷積層之後是一個非線性啟用層(即PReLU),其特徵對映的數量和濾波器的大小被設定為64和3×3。

4. Deep Refinement Network

圖5描述了深度細化網路的結構。輸入是由組合網路匯出的特徵圖。輸出是一個精煉的殘差塊。深度細化網路由卷積神經網路實現,由一個輸入卷積層、兩個卷積塊和一個輸出卷積層組成。每個卷積塊由三個卷積層組成。

需要注意的是,\(D_2,D_5\)分別是圖5中兩個卷積塊的第一個卷積層,他們將兩個不同核大小的子卷積層連線在一起。它可以用\(D2=concat(D_2^{1×1}, D_2^{3\times 3})\)\(D_5=concat(D_5^{1×1},D_5^{3×3})\)來表示。

深度細化網路的輸出是一個細化的殘差塊,需要將其新增到預測塊中,得到一個更準確的預測塊如下:

\[P^{'}=D(Y)+P \tag 3 \]

5. Loss function

混合編解碼框架

結果

總結

  1. 提出了一種基於神經網路的視訊編碼間預測增強方法,該網路由殘差估計網路、組合網路和深度細化網路組成
  2. 設計了一個殘差估計網路,利用當前塊與其預測塊之間的空間相鄰畫素來估計當前塊之間的殘差
  3. 提出了一種組合網路來提取估計的殘差和預測的塊的特徵圖,並將這些特徵圖連線在一起。因此,可以充分利用預測塊中的紋理資訊來指導殘差的細化。
  4. 提出了一種深度細化網路,將連線的特徵對映作為輸入,得到一個細化的殘差,並將其新增到預測塊中,得到一個更精確的預測塊

但是有著較高的複雜度。

Reference

Reference:Neural Network-Based Enhancement to Inter Prediction for Video Coding