1. 程式人生 > >影象分割“Mask R-CNN”

影象分割“Mask R-CNN”

在faster-rcnn網路上增加了一條與bbox迴歸和分類平行的結構,檢測目標的同時輸出目標的分割掩碼圖,執行效率為5fps,網路結構如下圖所示:
這裡寫圖片描述

掩碼分支是一個用於每個RoI的小fcn網路,以pixel-to-pixel的方式預測分割掩碼。Faster-RCNN不是設計來pixel-to-pixel的對齊,在特徵提取過程中,RoIPool提供的是粗糙空間量化資訊。Mask R-CNN提出了RoIAlign用於儲存精確的空間資訊。

相關工作
RCNN
Faster RCNN
例項分割:DeepMask,FCIS(全卷積例項分割)

Mask-RCNN對每個RoI輸出一個二值mask,對每個RoI,損失函式為:
L

=Lcls+Lbox+Lmask
對每個RoI,mask分支有Km2維輸出,表示K類的mask。Lmask是平均二值交叉熵損失。只有對應淚的mask對Lmask有貢獻,保證了類間沒有競爭。這與FCN不同,FCN使用per-pixel sigmoid和多項式交叉熵損失,mask之間存在競爭。

Mask表示
提取mask的空間結構資訊,可以使用卷積層提供的pixel-to-pixel對應關係。對於每個Roi,預測一個m*m的mask。點到點的表示要求RoI特徵是小的特徵圖,與每個畫素的空間關係相對應。RoIAlign用來解決這個問題。

RoIAlign
RoIPool是從ROI中提取小特徵圖的標準方法,ROIPool良好一個浮點表示的ROI來離散化特徵圖的粒度,量化後的ROI之後劃分為空間bins,之後使用最大池化得到最終特徵。這種量化導致特徵和RoI不能對齊。RoIAlign作了一個小改變:避免對RoI邊緣量化,使用雙線性插值計算四個取樣位置的精確值,最後使用最大池化得到結果。

網路結構
分別使用不同的影象特徵提取網路ResNet/FPN,及不同的網路驗證,兩種結構如下所示:
這裡寫圖片描述

實驗結果
在COCO測試集上的實驗結果:
這裡寫圖片描述