1. 程式人生 > >Learning to Segment Every Thing簡介

Learning to Segment Every Thing簡介

存在 方法 簡介 受限 理解 摘要 混合 類型 學習方法

摘要  

大多數實例分割算法都要求為所有的訓練樣本分配一個分割掩碼標簽。為新類別打標簽是一件費時費力的事情,所以這篇文章提出了一個新的偏監督學習訓練範例,使用權值遷移函數來訓練擁有大量邊框標註但是有很少分割標註的實例分割模型。這些改進可以讓Mask R-CNN檢測和分割3000個視覺概念,通過使用Visual Genome dataset的邊框標註和COCO dataset的80個類別掩碼標註。這個方法擴展了視覺世界的廣泛概念。

1. 介紹

目標檢測現在都是準確率非常高的。實例分割受限於非常少的類別,大概只有100個目標類別。

限制的主要原因是最先進的實例分割算法都要求精確的監督標簽,而這些標簽的收集很難。相比之下,邊框標註是非常多的,並且很好收集。這引發了一個問題:對於所有類別沒有完整的實例分割標註,卻可以訓練高質量的實例分割模型?帶著這個動機,提出了一個偏監督實例分割任務,以及一個新的遷移學習方法來解決這個問題。 

如下定義偏監督實例分割任務:(1)給定一個感興趣的類別集合,這個小的集合有實例掩碼標註,而其它列別僅僅有邊框標註;(2)實例分割算法應該利用這個數據去擬合模型,該模型可以在所有感興趣類別上分割所有目標實例。因為訓練詩句是掩碼數據和邊框數據的混合,所以稱該任務為偏監督學習。

偏監督相對於弱監督訓練的主要好處是,允許通過利用所有存在數據類型構建一個大規模實例分割模型,這些數據包括有大量類別的邊框標註的Visual Genome以及包含少量類別的實例掩碼標註的COCO。這個方法能讓最先進的實例分割方法擴展到數以千計的類別中。

為了處理偏監督實例分割,提出了一個建立在Mask R-CNN上的新遷移學習方法。Mask R-CNN非常適合這個任務,因為它將實例分割問題分解為邊框檢測和掩碼預測兩個子任務。這兩個子任務的使用專用共同的頭部網絡訓練。方法背後的直觀理解是,一旦訓練,邊框頭部的參數編碼每個類別的嵌入,使得視覺信息能夠傳遞到偏監督掩碼的頭部。

通過設計一個參數化的權值遷移函數來實現這個直觀理解,並訓練該函數作為邊框檢測參數的函數來預測類別實例分割的參數。該權值遷移函數使用帶有掩碼標簽的類作為監督在Mask R-CNN上訓練。在推理的時候,該函數用於預測每個類別的實例分割參數,因此使得模型分割所有的目標類別,並且包括那些訓練時候沒有掩碼標註的類別。

Learning to Segment Every Thing簡介