【Translation】Robust High-Resolution Video Matting with Temporal Guidance

阿新 • • 發佈：2022-04-08

【Translation】Robust High-Resolution Video Matting with Temporal Guidance

Translate By ：https://www.deepl.com/translator

Abstract

我們介紹了一種強大的、實時的、高解析度的人類視訊消光方法，實現了新的最先進的效能。我們的方法比以前的方法要輕得多，可以在Nvidia GTX 1080Ti GPU上以76 FPS的速度處理4K，以104 FPS的速度處理高清。與大多數現有的將視訊逐幀作為獨立影象進行消融的方法不同，我們的方法使用了一個遞迴架構來利用視訊中的時間資訊，並在時間一致性和消融質量方面取得了明顯的改善。此外，我們提出了一種新的訓練策略，使我們的網路在消光和分割目標上都得到加強。這極大地提高了我們模型的穩健性。我們的方法不需要任何輔助輸入，如修剪圖或預先捕獲的背景影象，因此它可以廣泛地應用於現有的人類消光應用。我們的程式碼可在https://peterl1n.github.io/RobustVideoMatting/。

1. Introduction

消光是指從輸入幀中預測α消光和前景顏色的過程。從形式上看，一幀I可以被看作是前景F和背景B通過α係數的線性組合。

通過提取α和F，我們可以將前景物體合成一個新的背景，達到背景替換的效果。

背景替換有許多實際應用。許多正在興起的用例，如視訊會議和娛樂視訊創作，都需要在沒有綠幕道具的情況下對人類主體進行實時的背景替換。神經模型被用於這個具有挑戰性的問題，但目前的解決方案並不總是穩健的，而且經常產生偽影。我們的研究重點是提高此類應用的墊層質量和穩健性。

大多數現有的方法[18, 22, 34]，儘管是為視訊應用而設計的，但將單個幀作為獨立的影象來處理。這些方法忽略了視訊中最廣泛存在的特徵：時間資訊。時間資訊可以改善視訊的消光效能，原因有很多。首先，它允許預測更連貫的結果，因為模型可以看到多個幀和它自己的預測結果。這大大減少了瑕疵，提高了感知質量。第二，時間資訊可以提高消光的穩健性。在個別幀可能是模糊的情況下，例如，前景顏色變得與背景中的一個經過的物體相似，模型可以通過參考以前的幀來更好地猜測邊界。第三，時間資訊允許模型隨著時間的推移瞭解更多關於背景的資訊。當相機移動時，由於視角的變化，被攝者背後的背景就會顯現出來。即使攝像機被固定住了，被遮擋的背景仍然經常由於被攝者的移動而顯現出來。對背景有一個更好的瞭解可以簡化消光任務。因此，我們提出了一個迴圈架構來利用時間資訊。我們的方法極大地提高了消光質量和時間一致性。它可以應用於所有的視訊，而不需要任何輔助輸入，如手動註釋的三段式或預先拍攝的背景影象。

此外，我們提出了一個新的訓練策略，以同時在消光和語義分割目標上執行我們的模型。大多數現有的方法[18, 22, 34]是在合成墊子資料集上訓練的。這些樣本通常看起來是假的，並阻止了網路對真實影象的推廣。以前的工作[18, 22]試圖用分割任務訓練的權重來初始化模型，但模型在墊層訓練中仍然過度到合成分佈。還有一些人嘗試在無標籤的真實影象上進行對抗性訓練[34]或半監督學習[18]，作為額外的適應步驟。我們認為，人類的消解任務與人類的分割任務密切相關。同時進行分割目標的訓練可以有效地調節我們的模型，而無需額外的適應步驟。

我們的方法優於之前最先進的方法，同時更輕更快。我們的模型只使用了58%的引數，並能在Nvidia GTX 1080Ti GPU上以4K 76 FPS和HD 104 FPS的速度實時處理高解析度視訊。

基於Trimap的 matting。經典的（非學習型）演算法[1, 5, 7, 10, 20, 21, 38]需要手動的trimap註釋來解決trimap的未知區域。這類方法在Wang和Cohen的調查中有所回顧[43]. Xu等人[45]首次將一個深度網路用於基於trimap的消解，最近的許多研究繼續採用這種方法。FBA[9]是其中一個最新的研究。基於Trimap的方法通常是與物體無關的（不限於人類）。它們適合於互動式照片編輯應用，使用者可以選擇目標物件並提供人工指導。為了將其擴充套件到視訊，Sun等人提出了DVM[39]，它只需要在第一幀上進行修剪，並能將其傳播到視訊的其餘部分。

基於背景的消光。Soumyadip等人提出了背景消光（BGM）[34]，它需要一個額外的預先捕獲的背景影象作為輸入。這種資訊作為一種隱含的方式來選擇前景，並提高了消隱的準確性。Lin和Ryabtsev等人進一步提出了BGMv2[22]，改進了效能，並將重點放在實時高解析度上。然而，背景消融不能處理動態背景和大型攝像機的移動。

分割。語義分割是為每個畫素預測一個類別標籤，通常沒有輔助輸入。其二元分割掩碼可用於定位人類主體，但直接使用它進行背景替換將導致強烈的偽影。儘管如此，分割任務與無輔助設定中的消光任務類似，分割方面的研究啟發了我們的網路設計。DeepLabV3[3]提出了ASPP（Atrous Spatial Pyramid Pooling）模組，並在其編碼器中使用擴張卷積來提高效能。這一設計被許多後續作品所採用，包括MobileNetV3[15]，它將ASPP簡化為LR-ASPP。

無輔助的消光。沒有任何輔助輸入的全自動消光也已被研究。像[29, 46]這樣的方法適用於任何前景物體，但不太穩健，而像[18, 35, 47]這樣的方法是專門為人像訓練的。MODNet[18]是最新的人像消融方法。相比之下，我們的方法是經過訓練的，可以很好地在整個人體上工作。

視訊矩陣。很少有神經消融方法是為視訊設計的。MODNet[18]提出了一個後處理技巧，即比較相鄰幀的預測來抑制抖動，但它不能處理快速移動的身體部分，而且模型本身仍然將幀作為獨立的影象來操作。BGM[34]探討了將幾個相鄰的幀作為額外的輸入通道，但這隻提供短期的時間線索，其效果不是研究的重點。DVM[45]是視訊原生的，但專注於利用時間資訊來傳播trimap註釋。相反，我們的方法專注於利用時間資訊來提高無輔助設定中的消光質量。

遞迴結構。遞迴神經網路已被廣泛用於序列任務。兩個最流行的架構是LSTM（長短時記憶）[13]和GRU（門控遞迴單元）[6]，它們也被採用於視覺任務，如ConvLSTM[36]和ConvGRU[2]。以前的工作已經探索了在各種視訊視覺任務中使用遞迴架構，並顯示了與基於影象的對應物相比的改進效能[42, 28, 41]。我們的工作採用了遞迴架構來處理消光任務。

高解析度消融。PointRend[19]的分割和BGMv2[22]的消光已經探索了基於補丁的重新整合。它只對選擇性的斑塊進行卷積。另一種方法是使用引導濾波[11]，這是一種後處理濾波器，以高解析度幀為指導，對低解析度預測進行聯合升取樣。深度引導濾波（DGF）[44]是作為一個可學習的模組提出的，它可以和網路一起進行端到端的訓練，而不需要手動超引數。儘管基於濾波器的上取樣功能較弱，但我們還是選擇了它，因為它的速度更快，而且得到了所有推理框架的支援。

3. Model Architecture

我們的架構包括一個提取單個幀特徵的編碼器，一個彙總時間資訊的遞迴解碼器，以及一個用於高解析度上取樣的深度引導濾波器模組。圖2顯示了我們的模型架構。

3.1. Feature-Extraction Encoder（特徵提取編碼器）

我們的編碼器模組遵循最先進的語義分割網路的設計[3, 4, 15]，因為準確定位人類主體的能力是墊層任務的基礎。我們採用MobileNetV3-Large[15]作為我們高效的主幹，然後採用MobileNetV3提出的LR-ASPP模組來完成語義分割任務。值得注意的是，MobileNetV3的最後一個模組使用了擴張的卷積，沒有下采樣的步長。編碼器模組對單個幀進行操作，並在 $1\over 2$、$1\over4$、$1\over8$、$1\over16$尺度上提取特徵，供遞迴解碼器使用。

圖2：我們的網路由一個特徵提取編碼器、一個遞迴解碼器和深度引導濾波（DGF）模組組成。為了處理高解析度的視訊，首先對編碼器-解碼器網路的輸入進行降取樣，然後用DGF對結果進行升取樣。

3.2. Recurrent Decoder（遞迴解碼器）

我們決定使用一個遞迴結構，而不是使用注意力或簡單的前饋多幀作為額外的輸入通道，有幾個原因。遞迴機制可以學習在連續的視訊流中保留和遺忘哪些資訊，而其他兩種方法必須依靠一個固定的規則，在每個設定的時間間隔內刪除舊的和插入新的資訊到有限的記憶體池中。適應性地保留長期和短期時間資訊的能力使遞迴機制更適合於我們的任務。

我們的解碼器採用了多尺度的ConvGRU來聚合時間資訊。我們選擇ConvGRU是因為它比ConvLSTM的門數更少，引數更有效。從形式上看，ConvGRU被定義為。

其中，運算子∗和⊙分別代表卷積和元正積；tanh和σ分別代表雙曲切線和sigmoid函式。w和b是卷積核和偏置項。隱藏狀態h t既作為輸出，也作為下一個時間步驟的遞迴狀態h t-1。初始遞迴狀態h 0是一個全零張量。

如圖2所示，我們的解碼器由一個瓶頸塊、上取樣塊和一個輸出塊組成。

Bottleneck block（瓶頸塊）在LR-ASPP模組之後以$1\over16$的特徵尺度執行。一個ConvGRU層只對一半的通道進行分割和串聯操作。這大大減少了引數和計算，因為ConvGRU的計算量很大。

Upsampling block（上取樣塊）在$1\over8$、$1\over4$ 和$1\over2$比例上重複。首先，它將前一模組的雙線性升取樣輸出、編碼器的相應比例的特徵圖和通過重複2×2平均池化降取樣的輸入影象連線起來。然後，在卷積之後，應用批量歸一化[16]和ReLU[26]啟用來進行特徵合併和通道減少。最後，通過分割和串聯對一半的通道應用ConvGRU。

Output block（輸出塊）不使用ConvGRU，因為我們認為它在這個規模上是膨脹的，沒有影響。該模組只使用常規的卷積法來重構結果。它首先將輸入影象和前一個塊的雙線性升取樣輸出連線在一起。然後，它採用兩次重複卷積、批量歸一化和ReLU堆疊來產生最終的隱藏特徵。最後，這些特徵被投射到輸出，包括單通道阿爾法預測、三通道前景預測和單通道分割預測。分割輸出被用於分割訓練目標，如後面第4節所述。

我們發現，通過分割和串聯，將ConvGRU應用於一半的通道是有效和高效的。這種設計有助於ConvGRU專注於聚集時間資訊，而另一個分割分支則轉發了當前幀的空間特徵。所有的卷積都使用3×3的核心，除了最後的投影使用1×1的核心。

我們修改了我們的網路，使其可以一次獲得T個框架作為輸入，每一層在傳遞到下一層之前都要處理所有的T個框架。在訓練過程中，這使得批量歸一化可以計算跨批次和時間的統計資料，以確保歸一化的一致性。在推理過程中，T=1可用於處理實時視訊，T>1可用於利用非遞迴層的更多GPU並行性，作為批處理的一種形式，如果允許幀被緩衝。我們的遞迴解碼器是單向的，所以它可以用於直播和後期處理。

我們採用[44]中提出的深度引導濾波（DGF）進行高解析度預測。在處理4K和高清等高解析度視訊時，我們在通過編碼器-解碼器網路之前對輸入幀進行降取樣，降取樣係數為s。然後，低解析度的阿爾法、前景、最終的隱藏特徵，以及高解析度的輸入幀被提供給DGF模組，以產生高解析度的阿爾法和前景。如第4節所述，整個網路是端到端的訓練。請注意，DGF模組是可選的，如果要處理的視訊解析度低，編碼器-解碼器網路可以獨立執行。

我們的整個網路不使用任何特殊的運算子，可以部署到大多數現有的推理框架。更多的架構細節在補充檔案中。

4. Training

我們建議同時用消光和語義分割的目標來訓練我們的網路，這有幾個原因。

首先，人類消解任務與人類分割任務密切相關。不像基於trimap和基於背景的消光方法，它們被賦予額外的線索作為輸入，我們的網路必須學會從語義上理解場景，並在定位人類主體方面具有魯棒性。

第二，大多數現有的消光資料集只提供地面真實的阿爾法和前景，必須對背景影象進行合成。由於前景和背景具有不同的照明，這些合成有時看起來很假。另一方面，語義分割資料集的特點是真實的影象，其中人類主體包括在所有型別的複雜場景中。用語義分割資料集進行訓練可以防止我們的模型過度適應合成分佈。

第三，有更多的訓練資料可用於語義分割任務。我們收穫了各種公開可用的資料集，包括基於視訊和影象的資料集，以訓練一個強大的模型。

4.1. Matting Datasets（配套資料集）

我們的模型是在VideoMatte240K（VM）[22]、Distinctions-646（D646）[30]和Adobe Image Matting（AIM）[45]資料集中訓練的。VM提供了484個4K/HD視訊片段。我們將資料集分為475/4/5個片段，用於訓練/評估/測試的分割。D646和AIM是影象矩陣資料集。我們只使用人類的影象，並將它們結合起來，形成420/15個訓練/評價分片，用於訓練。為了評估，D646和AIM分別提供11張和10張測試影象。

對於背景，[39]的資料集提供了適合於消光合成的高清背景視訊。這些視訊包括各種運動，如汽車通過、樹葉搖晃和攝像機運動。我們選擇了3118個不包含人類的片段，並從每個片段中提取前100幀。我們還按照[22]的方法抓取了8000張影象背景。這些影象有更多的室內場景，如商店和客廳。

我們對前景和背景都進行了運動和時間上的增強，以增加資料的多樣性。運動增強包括隨時間不斷變化的平移、縮放、旋轉、剪下、亮度、飽和度、對比度、色調、噪聲和模糊。運動的應用有不同的緩和功能，這樣的變化並不總是線性的。擴增也為影象資料集增加了人工運動。此外，我們還在視訊上應用了時間上的增強，包括片段逆轉、速度變化、隨機暫停和跳幀。其他的離散增強，即水平ﬂip、灰度和銳化，也被一致地應用於所有幀。

4.2. Segmentation Datasets（分割資料集）

我們使用視訊分割資料集YouTubeVIS並選擇2985個包含人類的片段。我們還使用影象分割資料集COCO[23]和SPD[40]。COCO提供了64111張包含人類的影象，而SPD提供了額外的5711張樣本。我們應用了類似的增強，但沒有運動，因為YouTubeVIS已經包含了大量的攝像機運動，而影象分割資料集不需要運動增強。

4.3. Procedures（流程）

我們的消解訓練被分成四個階段。它們被設計成讓我們的網路逐步看到更長的序列和更高的解析度，以節省訓練時間。我們使用亞當優化器進行訓練。所有階段都使用批處理大小B=4，分在4個Nvidia V100 32G GPU上。

第一階段：我們首先在低解析度的虛擬機器上訓練，沒有DGF模組15個epochs。我們設定了一個短的序列長度T=15幀，這樣網路就能更快地得到更新。MobileNetV3骨幹網用預訓練的ImageNet[32]權重初始化，並使用1e-4的學習率，而網路的其他部分使用2e-4。我們在256和512畫素之間對輸入解析度h、w的高度和寬度獨立取樣。這使得我們的網路對不同的解析度和長寬比具有魯棒性。

第二階段：我們將T增加到50幀，將學習率降低一半，並保持第一階段的其他設定，再訓練我們的模型2個 epochs。這使我們的網路能夠看到更長的序列並學習長期的依賴性。T = 50是我們在GPU上可以訓練的最長時間。

第三階段：我們安裝DGF模組，在虛擬機器上用高解析度的樣本訓練1個歷時。由於高解析度會消耗更多的GPU記憶體，所以序列長度必須被設定為非常短。為了避免我們的迴圈網路對非常短的序列過度，我們在低解析度長序列和高解析度短序列上訓練我們的網路。具體來說，低解析度通道不採用DGF，並且有T=40和h，w∼（256，512）。高解析度通道包含了低解析度通道，並採用了DGF的下采樣係數s = 0.25，T = 6，h, wˆ ∼ (1024, 2048) 。我們將DGF的學習率設定為2e-4，網路的其他部分設定為1e-5。

第四階段：我們在D646和AIM的組合資料集上訓練了5個歷時。我們將解碼器的學習率提高到5e-5，讓我們的網路適應，並保持第三階段的其他設定。

分割：我們的分割訓練是在每個消光訓練迭代之間交錯進行的。我們在每次奇數迭代後對影象分割資料進行訓練，而在每次偶數迭代後對視訊分割資料進行訓練。分割訓練適用於所有階段。對於視訊分割資料，我們在每個消解階段使用相同的B、T、h、w設定。對於影象分割資料，我們將其視為只有1幀的視訊序列，因此T′=1。這使我們有空間應用更大的批量大小B ′ = B ×T。由於影象是作為第一幀的前饋，所以即使在沒有遞迴資訊的情況下，它也能迫使分割變得穩健。

4.4. Losses（損失）

我們對所有t∈[1, T]幀應用損失。為了學習α t，我們使用L1損失L α l1和金字塔拉普拉斯損失L lap α，如[9，14]所報告的，以產生最佳結果。我們還應用了時間一致性損失L tc α，如[39]所使用的，以減少干擾。

為了學習前景F t與地面真相F t ∗，我們按照[22]的方法，在α t ∗>0的畫素上計算L1損失L l1 F和時間一致性損失L tc F。

墊層總損失L M為。

對於語義分割，我們的網路只對人類類別進行訓練。為了學習分割概率S t與基礎事實二元標籤S t ∗的關係，我們計算二元交叉熵損失。

5. Experimental Evaluation

5.1. Evaluation on Composition Datasets（對組成資料集的評價）

我們通過將VM、D646和AIM資料集的每個測試樣本合成到5個視訊和5個影象背景中來構建我們的基準。每個測試片段有100幀。影象樣本被應用於運動增強。

我們將我們的方法與最先進的基於三角圖的方法（FBA[9]）、基於背景的方法（BGMv2[22]與MobileNetV2[33]骨幹）和無輔助方法（MODNet[18]）進行比較。為了公平地比較它們的全自動矩陣，FBA使用了由語義分割方法DeepLabV3[3]和ResNet101[12]骨幹的擴張和侵蝕產生的合成三角圖；BGMv2只看到第一幀的真實背景；MODNet應用其鄰幀平滑的技巧。我們試圖在我們的資料上重新訓練MODNet，但結果更糟，可能是由於訓練過程中的問題，所以MODNet使用了它的常規權重；BGMv2已經在所有三個資料集上進行了訓練；FBA在寫作時還沒有釋出訓練程式碼。

我們用MAD（平均絕對差異）、MSE（平均平方誤差）、Grad（空間梯度）[31]和Conn（連通性）[31]來評價α與地面實況α的關係，並採用dtSSD[8]來評價時間上的一致性。對於F，我們只用MSE來衡量α ∗>0的畫素。MAD和MSE的比例為1e 3，dtSSD的比例為1e 2，以提高可讀性。F沒有在VM上測量，因為它包含了有噪聲的地面實況。MODNet不預測F，所以我們在輸入幀上評估，作為其前景預測。這模擬了直接在輸入上應用阿爾法啞光。

表1對使用低解析度輸入的方法進行了比較。我們的方法在這種情況下不使用DGF。我們的方法在所有的資料集上預測出更準確和一致的α。特別是，FBA受到不準確的合成trimap的限制。BGMv2對動態背景的表現很差。MODNet產生的結果不如我們的準確和一致。對於前景預測，我們的結果落後於BGMv2，但超過了FBA和MODNet。

表2進一步比較了我們的方法和MODNet在高解析度上的表現。由於DGF必須與網路一起進行端到端的訓練，我們修改了MODNet，使用非學習的快速引導濾波器（FGF）來對預測進行上取樣。這兩種方法都對編碼器-解碼器網路使用降取樣尺度s = 0.25。我們去掉了Conn指標，因為它在高解析度下計算起來過於龐大。我們的方法在所有指標上都優於MODNet。

表1: 低解析度的比較。我們的阿爾法預測優於其他所有的預測。我們的前景預測落後於BGMv2，但勝過FBA和MODNet。請注意，FBA使用DeepLabV3的合成trimap；BGMv2只看到第一幀的地面真實背景；MODNet不預測前景，所以它是在輸入影象上評估的。

表2：高解析度的阿爾法比較。我們的比帶快速引導濾波器（FGF）的MODNet好。

5.2. Evaluation on Real Videos（對真實視訊的評估）

圖3顯示了對真實視訊的定性比較。在圖3a中，我們比較了所有方法的阿爾法預測，發現我們的方法能更準確地預測細微的細節，如頭髮絲。在圖3b中，我們在隨機的YouTube視訊上進行實驗。由於這些視訊沒有預先拍攝的背景，我們將BGMv2從比較中刪除。我們發現，我們的方法對語義錯誤更加穩健。在圖3c和3d中，我們進一步比較了手機和網路攝像頭視訊的實時消光與MODNet。我們的方法可以比MODNet更好地處理快速移動的身體部位。

5.3. Size and Speed Comparison（尺寸和速度比較）

表3和表4顯示，我們的方法明顯更輕，與MODNet相比，只有58%的引數。我們的方法在高清（1920 × 1080）上是最快的，但在512 × 288上比BGMv2慢一點，在4K（3840 × 2160）上比MODNet與FGF慢一點。我們的檢查發現，DGF和FGF的效能差異非常小。我們的方法在4K上比MODNet慢，因為我們的方法除了預測阿爾法之外，還預測前景，所以在高解析度下處理3個額外的通道會比較慢。我們使用[37]來測量GMACs（乘積操作），但它只測量卷積，而忽略了DGF和FGF中使用最多的調整大小和許多張量操作，所以GMACs只是一個粗略的近似值。我們的方法實現了高清104 FPS和4K 76 FPS，這對許多應用來說是實時的。

表3：我們的方法比所有比較的方法都要輕。尺寸以FP32的權重來衡量。

表4：模型效能比較。s表示降樣比例。模型被轉換為TorchScript並在測試前進行了優化（BatchNorm融合等）。FPS是以Nvidia GTX 1080Ti GPU上的FP32張量吞吐量來衡量。GMACs是一個粗略的近似值。

6. Ablation Studies（消融研究）

6.1. Role of Temporal Information（時間資訊的作用）

圖4顯示了所有VM測試片段的平均α-MAD指標隨時間的變化。我們的模型在前15幀的誤差明顯下降，然後指標保持穩定。MODNet即使採用了鄰幀平滑技巧，其指標也有很大的波動。我們還試驗了在我們的網路中通過零張量作為遞迴狀態來禁用遞迴功能。質量和一致性如預期的那樣惡化了。這證明了時間資訊可以提高質量和一致性。

圖3: 定性比較。與其他方法相比，我們的方法產生更詳細的阿爾法。在對YouTube、手機和網路攝像頭視訊進行評估時，我們的方法始終比其他方法更強大。更多結果見補充說明。YouTube視訊是從網際網路上抓取的；手機視訊來自一個公共資料集[17]；一些網路攝像頭的例子是記錄的，而其他的則來自[24]。

圖5在一個視訊樣本上比較了時間一致性和MODNet。我們的方法在扶手區域產生了一致的結果，而MODNet產生了ﬂicker，這大大降低了感知質量。更多結果請見我們的補充報告。

我們進一步檢查了遞迴的隱藏狀態。在圖6中，我們發現我們的網路已經自動學會了重建背景，因為它隨著時間的推移而顯現，並將這些資訊保留在其遞迴通道中，以幫助未來的預測。它還使用其他遞迴通道來跟蹤運動歷史。我們的方法甚至試圖在視訊包含攝像機運動時重建背景，並且能夠在鏡頭切割時忘記無用的記憶。更多的例子在補充檔案中。

6.2. Role of Segmentation Training Objective（分割訓練目標的作用）

表5顯示，當對包含人類的COCO驗證影象子集進行評估時，我們的方法和語義分割方法一樣穩健，而且只針對人類類別。我們的方法達到了61.50 mIOU，考慮到模型大小的不同，這合理地介於MobileNetV3和DeepLabV3在COCO上訓練的效能之間。我們還嘗試通過閾值α>0.5作為二進位制掩碼來評估我們的阿爾法輸出的魯棒性，我們的方法仍然取得了60.88 mIOU，表明阿爾法預測也是魯棒的。為了比較，我們用COCO的預訓練權重初始化MobileNetV3編碼器和LR-ASPP模組，並刪除分割目標，從而訓練一個單獨的模型。該模型覆蓋了合成的墊子資料，並對COCO的效能進行了顯著的迴歸，僅達到38.24 mIOU。

圖4：在沒有DGF的虛擬機器上，平均αMAD隨時間變化。我們的指標隨著時間的推移而改善，並且是穩定的，這表明時間資訊提高了質量和一致性。

圖5：時間上的一致性比較。MODNet的結果在扶手上有ﬂicker，而我們的是一致的。

圖6：遞迴隱藏狀態下的兩個例子通道。我們的網路學會了隨著時間的推移重建背景，並在其迴圈狀態中保持對運動歷史的跟蹤。

表5：COCO驗證集的分割效能。用分割目標進行訓練使我們的方法變得穩健，而只用預訓練的權重進行訓練則會退步。

6.3. Role of Deep Guided Filter（深度導引過濾器的作用）

表6顯示，與FGF相比，DGF在尺寸和速度上只有很小的開銷。DGF有一個更好的Grad度量，表明其高解析度的細節更準確。DGF還產生了由dtSSD指標顯示的更連貫的結果，可能是因為它考慮到了來自遞迴解碼器的隱藏特徵。MAD和MSE指標是不確定的，因為它們被分割層面的錯誤所支配，而DGF和FGF都沒有糾正這些錯誤。

表6：在D646上切換DGF和FGF的比較。引數以百萬為單位。FPS以HD計算。

6.4. Static vs. Dynamic Backgrounds（靜態與動態背景）

表7比較了靜態和動態背景下的效能。動態背景包括背景物體的移動和攝像機的移動。我們的方法可以處理這兩種情況，在靜態背景上的表現稍好，可能是因為如圖6所示，重建畫素對齊的背景比較容易。另一方面，BGMv2在動態背景上的表現很差，MODNet沒有表現出任何偏好。Inmetric，BGMv2在靜態背景上的表現優於我們的，但在現實中，當預拍的背景有錯位時，預計它的表現會更糟。

表7：比較靜態和動態背景下的VM樣本。我們的方法在靜態背景上做得更好，但可以處理這兩種情況。請注意，BGMv2接收的是地面真實的靜態背景，但現實中的背景有錯位。

6.5. Larger Model for Extra Performance（更大的模型，更多的效能）

我們嘗試將主幹網換成ResNet50[12]並增加解碼器通道。表8顯示了效能的提高。大模型更適合於伺服器端的應用。

表8：大型模型使用ResNet50骨幹網，有更多的解碼器通道。在高清的虛擬機器上進行了評估。尺寸以MB為單位。

6.6. Limitations（限制因素）

我們的方法更傾向於有明確目標主體的視訊。當背景中有人時，感興趣的主題就會變得模糊不清。它也更傾向於簡單的背景，以產生更準確的矩陣。圖7顯示了一些具有挑戰性的案例。

圖7：具有挑戰性的案例。背景中的人使消光的目標變得模糊不清。複雜的場景使消光工作更加困難。

7. Conclusion

我們提出了一個用於穩健的人類視訊消光的遞迴架構。我們的方法達到了新的先進水平，同時更輕更快。我們的分析表明，時間資訊在提高質量和一致性方面起著重要作用。我們還引入了一種新的訓練策略，在消光和語義分割目標上訓練我們的模型。這種方法有效地迫使我們的模型在各種型別的視訊上具有魯棒性。

References

[1] Yagiz Aksoy, Tunc Ozan Aydin, and Marc Pollefeys. Designing effective inter-pixel information ﬂow for natural image matting. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 29–37, 2017.

[2] Nicolas Ballas, L. Yao, C. Pal, and Aaron C. Courville. Delving deeper into convolutional networks for learning video representations. CoRR, abs/1511.06432, 2016.

[3] Liang-Chieh Chen, G. Papandreou, Florian Schroff, and Hartwig Adam. Rethinking atrous convolution for semantic image segmentation. ArXiv, abs/1706.05587, 2017.

[4] Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. Encoder-decoder with atrous separable convolution for semantic image segmentation, 2018.

[5] Qifeng Chen, Dingzeyu Li, and Chi-Keung Tang. Knn matting. IEEE transactions on pattern analysis and machine intelligence, 35(9):2175–2188, 2013.

[6] Kyunghyun Cho, B. V. Merrienboer, C¸aglar G¨ulc¸ehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase representations using rnn encoder–decoder for statistical machine translation. ArXiv, abs/1406.1078, 2014.

[7] Yung-Yu Chuang, Brian Curless, David H Salesin, and Richard Szeliski. A bayesian approach to digital matting. In CVPR (2), pages 264–271, 2001.

[8] M. Erofeev, Yury Gitman, D. Vatolin, Alexey Fedorov, and J.

Wang. Perceptually motivated benchmark for video matting. In BMVC, 2015.

[9] Marco Forte and Franc¸ois Piti´e. F, b, alpha matting. CoRR, abs/2003.07711, 2020.

[10] Eduardo SL Gastal and Manuel M Oliveira. Shared sampling for real-time alpha matting. In Computer Graphics Forum, volume 29, pages 575–584. Wiley Online Library, 2010.

[11] Kaiming He, Jian Sun, and X. Tang. Guided image ﬁltering.

IEEE Transactions on Pattern Analysis and Machine Intelligence, 35:1397–1409, 2013.

[12] Kaiming He, X. Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 770–778, 2016.

[13] S. Hochreiter and J. Schmidhuber. Long short-term memory.

[18] Zhanghan Ke, Kaican Li, Yurou Zhou, Qiuhua Wu, Xiangyu Mao, Qiong Yan, and Rynson W.H. Lau. Is a green screen really necessary for real-time portrait matting? ArXiv, abs/2011.11961, 2020.

[19] Alexander Kirillov, Yuxin Wu, Kaiming He, and Ross B. Girshick. Pointrend: Image segmentation as rendering. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 9796–9805, 2020.

[20] Anat Levin, Dani Lischinski, and Yair Weiss. A closed-form solution to natural image matting. IEEE transactions on pattern analysis and machine intelligence, 30(2):228–242, 2007.

[21] Anat Levin, Alex Rav-Acha, and Dani Lischinski. Spectral matting. IEEE transactions on pattern analysis and machine intelligence, 30(10):1699–1712, 2008.

[22] Shanchuan Lin, Andrey Ryabtsev, Soumyadip Sengupta, Brian Curless, Steve Seitz, and Ira KemelmacherShlizerman. Real-time high-resolution background matting. In Computer Vision and Pattern Regognition (CVPR), 2021.

[23] Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona, Deva Ramanan, C. Lawrence Zitnick, and Piotr Doll´ar. Microsoft coco: Common objects in context, 2015.

[24] Marwa Mahmoud, Tadas Baltruˇsaitis, Peter Robinson, and Laurel Riek. 3d corpus of spontaneous complex mental states. In Conference on Affective Computing and Intelligent Interaction, 2011.

[25] Paulius Micikevicius, Sharan Narang, Jonah Alben, Gregory Diamos, Erich Elsen, David Garcia, Boris Ginsburg, Michael Houston, Oleksii Kuchaiev, Ganesh Venkatesh, and Hao Wu. Mixed precision training, 2018.

[26] Vinod Nair and Geoffrey E. Hinton. Rectiﬁed linear units improve restricted boltzmann machines. In ICML, 2010.

Neural Computation, 9:1735–1780, 1997.

[27] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, Alban Desmaison, Andreas Kopf, Edward Yang, Zachary DeVito, Martin Raison, Alykhan Tejani, Sasank Chilamkurthy, Benoit Steiner, Lu Fang, Junjie Bai, and Soumith Chintala. Pytorch: An imperative style, high-performance deep learning library. In H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alch´e-Buc, E. Fox, and R. Garnett, editors, Advances in Neural Information Processing Systems 32, pages 8024–8035. Curran Associates, Inc., 2019.

[14] Qiqi Hou and Feng Liu. Context-aware image matting for simultaneous foreground and alpha estimation, 2019.

[15] Andrew Howard, Mark Sandler, Grace Chu, Liang-Chieh Chen, Bo Chen, Mingxing Tan, Weijun Wang, Yukun Zhu, Ruoming Pang, Vijay Vasudevan, Quoc V. Le, and Hartwig Adam. Searching for mobilenetv3, 2019.

[16] Sergey Ioffe and Christian Szegedy. Batch normalization:

Accelerating deep network training by reducing internal covariate shift, 2015.

[17] Yasamin Jafarian and Hyun Soo Park. Learning high ﬁdelity depths of dressed humans by watching social media dance videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 12753–12762, June 2021.

[28] Andreas Pfeuffer, Karina Schulz, and K. Dietmayer. Semantic segmentation of video sequences with convolutional lstms. 2019 IEEE Intelligent Vehicles Symposium (IV), pages 1441–1447, 2019.

[29] Yu Qiao, Yuhao Liu, Xin Yang, Dongsheng Zhou, Mingliang Xu, Qiang Zhang, and Xiaopeng Wei. Attention-guided hierarchical structure aggregation for image matting. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13676–13685, 2020.

[30] Yu Qiao, Yuhao Liu, Xin Yang, Dongsheng Zhou, Mingliang Xu, Qiang Zhang, and Xiaopeng Wei. Attention-guided hierarchical structure aggregation for image matting. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2020.

[31] Christoph Rhemann, C. Rother, J. Wang, M. Gelautz, P.

Kohli, and P. Rott. A perceptually motivated online benchmark for image matting. In CVPR, 2009.

[32] Olga Russakovsky, J. Deng, Hao Su, J. Krause, S. Satheesh,

S. Ma, Zhiheng Huang, A. Karpathy, A. Khosla, Michael S. Bernstein, A. Berg, and Li Fei-Fei. Imagenet large scale visual recognition challenge. International Journal of Computer Vision, 115:211–252, 2015.

[33] Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, and Liang-Chieh Chen. Mobilenetv2: Inverted residuals and linear bottlenecks, 2019.

[34] Soumyadip Sengupta, Vivek Jayaram, Brian Curless, Steve Seitz, and Ira Kemelmacher-Shlizerman. Background matting: The world is your green screen. In Computer Vision and Pattern Regognition (CVPR), 2020.

[35] Xiaoyong Shen, Xin Tao, Hongyun Gao, Chao Zhou, and Jiaya Jia. Deep automatic portrait matting. In European Conference on Computer Vision, pages 92–107. Springer, 2016.

[36] Xingjian Shi, Zhourong Chen, Hao Wang, D. Yeung, W. Wong, and W. Woo. Convolutional lstm network: A machine learning approach for precipitation nowcasting. In NIPS, 2015.

[37] Vladislav Sovrasov. ﬂops-counter.pytorch.

[38] Jian Sun, Jiaya Jia, Chi-Keung Tang, and Heung-Yeung Shum. Poisson matting. In ACM Transactions on Graphics (ToG), volume 23, pages 315–321. ACM, 2004.

[39] Yanan Sun, Guanzhi Wang, Qiao Gu, Chi-Keung Tang, and Yu-Wing Tai. Deep video matting via spatio-temporal alignment and aggregation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2021.

[40] supervise.ly. Supervisely person dataset. supervise.ly, 2018.

[41] Pavel Tokmakov, Alahari Karteek, and C. Schmid. Learning video object segmentation with visual memory. In ICCV, 2017.

[42] C. Ventura, Miriam Bellver, Andreu Girbau, A. Salvador, F. Marqu´es, and Xavier Gir´o i Nieto. Rvos: End-to-end recurrent network for video object segmentation. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 5272–5281, 2019.

[43] Jue Wang, Michael F Cohen, et al. Image and video matting:

a survey. Foundations and Trends® in Computer Graphics and Vision, 3(2):97–175, 2008.

[44] Huikai Wu, Shuai Zheng, Junge Zhang, and Kaiqi Huang.

Fast end-to-end trainable guided ﬁlter, 2019.

[45] Ning Xu, Brian Price, Scott Cohen, and Thomas Huang. Deep image matting. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 29702979, 2017.

[46] Yunke Zhang, Lixue Gong, Lubin Fan, Peiran Ren, Qixing Huang, Hujun Bao, and Weiwei Xu. A late fusion cnn for digital matting. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 74697478, 2019.

[47] Bingke Zhu, Yingying Chen, Jinqiao Wang, Si Liu, Bo Zhang, and Ming Tang. Fast deep matting for portrait animation on mobile phone. In Proceedings of the 25th ACM international conference on Multimedia, pages 297–305. ACM, 2017.

A. Overview

我們在本補充檔案中提供了額外的細節。在B節中，我們描述了我們網路結構的細節。在C節中，我們解釋了訓練的細節。在D節中，我們展示了我們的合成墊層資料樣本的例子。在E節中，我們展示了我們方法的其他結果。我們還在補充部分附上了視訊結果。請看我們的視訊以獲得更好的視覺效果。

B. Network

表9：不同尺度的特徵通道。E k和D k分別表示K特徵尺度下的編碼器和解碼器通道。AS表示LR-ASPP通道。

表9描述了我們的網路及其帶有特徵通道的變體。我們的預設網路使用MobileNetV3Large[15]骨幹網，而大型變體使用ResNet50[12]骨幹網。

Encoder（編碼器）：編碼器主幹對單個幀進行操作，在k∈[ $1\over2$,$1\over4$,$1\over8$,$1\over16$] 尺度下提取E k通道的特徵圖。與常規的MobileNetV3和ResNet骨幹網繼續以$1\over32$的尺度操作不同，我們按照[3, 4, 15]的設計，將最後一個塊修改為使用擴張率為2，步長為1的卷積。最後的特徵圖E $1\over16$被交給LR-ASPP模組，該模組將其壓縮為AS通道。

Decoder（解碼器）：所有的ConvGRU層通過分割和串聯對一半的通道進行操作，所以遞迴隱性狀態在規模k時有$Dk\over2$通道。對於上取樣2塊，卷積、批量歸一化和ReLU堆疊在分割到ConvGRU之前將串聯的特徵壓縮到D k通道。對於輸出塊，前兩個卷積有16個ﬁlters，最後的隱藏特徵有16個通道。最後的投影卷積輸出5個通道，包括3個通道的前景，1個通道的阿爾法，和1個通道的分割預測。除了最後的投影使用1×1的核心，所有的卷積都使用3×3的核心。平均集合使用2×2核，跨度為2。

Deep Guided Filter（深度引導型過濾器）：DGF內部包含一些1×1的卷積。我們對它進行了修改，將預測的前景、阿爾法和最終的隱藏特徵作為輸入。所有的內部卷積都使用16個濾波器。更多細節請參考[44]。

我們的整個網路是在PyTorch[27]中建立和訓練的。我們按照[9, 22]的做法，將阿爾法和前景預測輸出鉗制在[0, 1]的範圍內，沒有啟用函式。鉗制是在訓練和推理過程中進行的。分割預測的輸出是sigmoid logits。

C. Training

演算法1顯示了我們提出的訓練策略的訓練迴圈。序列長度引數T、T是根據階段來設定的，這在我們的正文中有所規定；批量大小引數設定為B=4，B′=B×T；輸入解析度隨機取樣為h、w∼Uniform（256，512），h、wˆ∼Uniform（1024，2048）。

我們的網路是用4個Nvidia V100 32G GPU訓練的。我們使用混合精度訓練[25]來減少GPU的記憶體消耗。訓練在每個階段分別需要大約18、2、8和14小時。

D. Data Samples

圖8顯示了來自墊子資料集的合成訓練樣本的例子。這些片段包含了與視訊合成時的自然運動，以及由運動增強產生的人工運動。

圖8：合成的訓練樣本。最後一欄顯示了每個畫素在不同時間的標準偏差，以視覺化運動。

圖9顯示了合成的測試樣本的例子。測試樣本只對影象前景和背景進行了運動增強。運動增強只包括非線性變換。與訓練增強相比，增強的強度也較弱，以使測試樣本看起來儘可能的真實。

圖9：測試樣本例項。擴增只應用於影象的前景和背景。增強的強度較弱，以使樣本看起來更真實。

E. Additional Results

圖10顯示了與MODNet的其他定性比較。我們的方法始終更加穩健。圖11比較了與MODNet的時間一致性。MODNet在低可信度的區域有閃爍的現象，而我們的結果是連貫的。圖12顯示了我們模型的迴圈隱藏狀態的其他例子。它表明，我們的模型已經學會了在其遞迴狀態中儲存有用的時間資訊，並且能夠在鏡頭切入時忘記無用的資訊。

圖10：與MODNet的更多定性比較。

圖11：時間上的一致性比較。我們的結果在時間上是連貫的，而MODNet則在扶手周圍產生ﬂicker。這是因為MODNet把每一幀都當作獨立的影象來處理，所以它的消光決定是不一致的。

圖12：更多的重複性隱藏狀態的例子。第一個靜態背景的例子清楚地表明我們的模型隨著時間的推移重建了被遮擋的背景區域。第二個例子中的手持攝像機顯示，我們的模型仍然試圖重建背景，而且它已經學會了在鏡頭切割時忘記無用的迴圈狀態。

【Translation】Robust High-Resolution Video Matting with Temporal Guidance

【Translation】Robust High-Resolution Video Matting with Temporal Guidance

Abstract

1. Introduction

2. Related Works

3. Model Architecture

3.1. Feature-Extraction Encoder（特徵提取編碼器）

3.2. Recurrent Decoder（遞迴解碼器）

3.3. Deep Guided Filter Module（深度導引過濾模組）

4. Training

4.1. Matting Datasets（配套資料集）

4.2. Segmentation Datasets（分割資料集）

4.3. Procedures（流程）

4.4. Losses（損失）

5. Experimental Evaluation

5.1. Evaluation on Composition Datasets（對組成資料集的評價）

5.2. Evaluation on Real Videos（對真實視訊的評估）

5.3. Size and Speed Comparison（尺寸和速度比較）

6. Ablation Studies（消融研究）

6.1. Role of Temporal Information（時間資訊的作用）

6.2. Role of Segmentation Training Objective（分割訓練目標的作用）

6.3. Role of Deep Guided Filter（深度導引過濾器的作用）

6.4. Static vs. Dynamic Backgrounds（靜態與動態背景）

6.5. Larger Model for Extra Performance（更大的模型，更多的效能）

6.6. Limitations（限制因素）

7. Conclusion

References

A. Overview

B. Network

C. Training

D. Data Samples

E. Additional Results

相關推薦