【轉】FAIR何愷明團隊推出全景分割,開闢影象分割新方向
轉自:https://www.jqr.com/news/009492
在計算機視覺發展的早期,人們主要關注影象中的人、動物或工具等明顯物件(things)。之後,Adelson提出要訓練系統識別其他物體的能力,如天空、造地、道路等沒有固定形狀的事物(stuff)。直到現在,仍然沒有一種方法能完美地區分不規則事物與獨立個體物件,這對影象識別任務和演算法生成特定物件來說都是一項挑戰。
要識別特定的事物,就要用分割的方法將影象分解。目前常用的有兩種分割方法:語義分割(semantic segmentation)和例項分割(instance segmentation)。語義分割常用來識別研究不規則事物,例如天空、草地。由於這類物件沒有特定的形狀,同時又不可數,所以語義分割只能簡單地給每一個畫素打上標籤。
相反,研究可數的、獨立事物,通常用目標檢測或例項分割的方法,從而檢測到每個物件,並用邊框或分割掩碼(segmentation mask)勾畫出來。
然而,對不規則物體的分類器,即語義分割,通常建立在膨脹後的充分卷積網路上。而物體檢測器,即例項分割,常用object proposals方法,並且基於區域。雖然有關兩種方法的演算法在過去十年中都得到了發展,但是否能有一種方法能同時識別不規則的背景與圖中獨立的個體呢?基於此,Facebook人工智慧實驗室(FAIR)的研究科學家何愷明博士與他的團隊近日公佈了一種新系統,名為全景分割(Panoptic Segmentation,簡稱PS)。顧名思義,全景分割就是要生成統一的、全域性式的分割影象。
全景分割的詳細介紹(PS)
假設給定一組語義類別L,L:={1,…,L}。全景分割演算法將給影象中的每個畫素打上標籤(li,zi)∈L × N,這裡li表示畫素i的語義類別,zi表示它的例項ID。例項(而非畫素)是演算法生成的單位,並且將用於之後的評估過程。對一張照片的ground truth標註方法也是一樣的。
語義標籤含有兩個子集:LSt
評估標準——PQ
全景分割的評估標準要符合三個特徵:全面、可解釋、簡單。研究人員們根據這些標準制定了全景質量(Panoptic Quality,簡稱PQ)標準。PQ方法主要衡量全景分割是否與真實圖片的相近程度。主要有兩個步驟:
例項對應(instance matching)
PQ計算
例項對應(Instance Matching)
研究人員規定,只有當模型預測的分割視窗與原圖示記視窗的重疊率,即檢測評價函式(IoU)嚴格大於0.5時,二者才能匹配。這樣的要求就保證了最多隻有一個分割影象能與真實圖片相匹配。
全景質量(PQ)計算
我們對每一類別進行獨立的全景質量計算,然後再取平均值。對每一類別,唯一的匹配將預測分割影象與真實影象分成三類:真正(TP)、假正(FP)和假負(FN),分別表示匹配的分割、不匹配的預測分割影象和不匹配的真實影象。下圖為一示例:
PQ的定義用公式表示為:
全景分割資料集
目前為止,只有三個資料集既有大量語義分割標註,又有例項分割標註。
Cityscapes:擁有5000張街景圖片,97%的圖片有畫素標註,共有19個類別,其中8個類別符合語義分割的特徵;
ADE20k:影象總量超過25000張,並經過公開標註。其中包括100種物體和59種事物。
Mapillary Vistas:同樣擁有25000張街景照片,解析度也大不相同。其中98%的圖片都經過了畫素標註,涵蓋28種事物與37種物體。
除此之外,未來我們還會把這一任務擴充套件到COCO上。
人類表現的如何?
全景分割和全景質量評估的優點之一是它也能測量人的表現。同時,對人類表現的研究也有助於研究人員瞭解這項任務的細節,並提升系統的效能。
上圖就展示了人類在上述三個資料集中的表現,除了全景質量(PQ)之外,還測試了分割質量(SQ)和檢測質量(DQ)。不過,人類識別物體的能力也並不完美,比如下面兩圖就說明人們在區分重疊物體以及分類的時候也會“眼花繚亂”。
繼續細分下來,全景分割是將事物(stuff)和物體(things)結合起來的,如果測試人類在這兩項中的表現,會有什麼結果呢?
如圖所示,研究人員將每一類都分出了事物和物體的小類,比如PQSt指對事物的全景分割能力,PQTh指對物體的全景分割能力。
在Cityscapes和ADE20k中,人類在事物和物體上的表現相差不大。但是在Vistas資料集上就差的有點多。
下圖展示了在每個資料集所包含的所有類別中,人類的全景分割能力。
另外,影象中物件的大小也會影響人們識別它的能力。下圖就統計了在大(L)、中(M)、小(S)三個尺寸下人類進行全景質量、分割質量和檢測質量的水平。
結果不言而喻,影象尺寸越大,表現越好。
機器表現得又怎樣呢?
看完了人類表現,現在我們要探討兩個問題:
最先進的例項分割和語義分割系統如何在全景分割上工作?
機器生成的結果與人類的相比怎麼樣?
對於選取的三個資料集,研究人員分別收集了合適的資料。對Cityscapes,他們採用了PSPNet和Mask R-CNN收集輸出資料,分別用於語義分割和例項分割。對於ADE20k,研究人員利用的是在2017 Places挑戰賽中的勝出者得出的結果作為資料集。對於Vistas,研究者採用了LSUN’17 影象分割挑戰賽中勝出者產生的1000張圖片作為資料集。準備好資料和演算法後,就開始讓機器進行全景分割測試啦!
首先是機器的例項分割表現(Vistas不在其中是因為在2017實力分割挑戰賽中只有一個記錄)。
接下來是語義分割的表現,由於語義分割沒有重疊的片段,所以我們可以直接計算PQ。在下表中,我們比較了平均IoU值和PQ值。
最後,將上述兩個結果對比,如下表:
全景分割的輸出可見下圖:
以及人與機器的表現對比:
對分割質量(SQ)來說,機器只落後於人類一點點,不過在檢測質量(DQ)方面,機器的水平則與人類差得多,尤其在ADE20k和Vistas資料集上,這種差距更明顯。這就說明機器識別,即目標檢測是目前最大的挑戰。
結語
希望今後的專案能夠以全景分割為出發點,引入更有趣的演算法,驅動影象識別領域的創新。研究人員希望未來能看到深度整合的端到端模型,同時具備PS的“雙重性質”(stuff和things);另外,由於PS不能有重疊的片段,因此某種高層次的“推理”可能是有益的。例如,基於向PS擴充套件科學系的NMS。最後,研究人員希望2018年能夠繼續挑戰全景分割,創造更多新成果。