Mask-RCNN技術解析

阿新 • • 發佈：2019-01-01

一. Mask-RCNN 介紹

上篇文章介紹了 FCN，這篇文章引入個新的概念 Mask-RCNN，看著比較好理解哈，就是在 RCNN 的基礎上新增 Mask。

Mask-RCNN 來自於年輕有為的 Kaiming 大神，通過在 Faster-RCNN 的基礎上新增一個分支網路，在實現目標檢測的同時，把目標畫素分割出來。

Mask-RCNN 的網路結構示意（在作者原圖基礎上修改了一下）：

假設大家對 Faster 已經很熟悉了，不熟悉的同學建議先看下之前的博文：【目標檢測-RCNN系列】

其中黑色部分為原來的 Faster-RCNN，紅色部分為在 Faster網路上的修改：

1）將 Roi Pooling 層替換成了 RoiAlign；

2）新增並列的 FCN 層（mask 層）；

先來概述一下 Mask-RCNN 的幾個特點（來自於 Paper 的 Abstract）：

1）在邊框識別的基礎上新增分支網路，用於語義Mask 識別；

2）訓練簡單，相對於 Faster 僅增加一個小的 Overhead，可以跑到 5FPS；

3）可以方便的擴充套件到其他任務，比如人的姿態估計等；

4）不借助 Trick，在每個任務上，效果優於目前所有的 single-model entries；

包括 COCO 2016 的Winners。

PS：寫到這兒提醒一句，建議大家先讀一遍原 Paper，這樣再回來看的話會有第二次理解。

二. RCNN行人檢測框架

基於最早的 Faster RCNN 框架，出現不少改進，主要有三篇需要看：

1）作者推薦的這篇

Speed/accuracy trade-offs for modern convolutional object detectors

論文下載【arxiv】

2）ResNet

MSRA也算是作者自己的作品，可以 refer to blog【ResNet殘差網路】

論文下載【arxiv】

3）FPN

Feature Pyramid Networks for Object Detection，通過特徵金字塔來融合多層特徵，實現CNN。

論文下載【arxiv】

來看下後面兩種 RCNN 方法與 Mask 結合的示意圖（直接貼原圖了）：

圖中灰色部分是原來的 RCNN 結合 ResNet or FPN 的網路，下面黑色部分為新新增的並聯 Mask層，這個圖本身與上面的圖也沒有什麼區別，旨在說明作者所提出的Mask RCNN 方法的泛化適應能力 - 可以和多種 RCNN框架結合，表現都不錯。

三. Mask-RCNN 技術要點

● 技術要點1 - 強化的基礎網路

通過 ResNeXt-101+FPN 用作特徵提取網路，達到 state-of-the-art 的效果。

● 技術要點2 - ROIAlign

採用 ROIAlign 替代 RoiPooling（改進池化操作）。引入了一個插值過程，先通過雙線性插值到14*14，再 pooling到7*7，很大程度上解決了僅通過 Pooling 直接取樣帶來的 Misalignment 對齊問題。

PS：雖然 Misalignment 在分類問題上影響並不大，但在 Pixel 級別的 Mask 上會存在較大誤差。

後面我們把結果對比貼出來（Table2 c & d），能夠看到 ROIAlign 帶來較大的改進，可以看到，Stride 越大改進越明顯。

● 技術要點3 - Loss Function

每個 ROIAlign 對應 K * m^2 維度的輸出。K 對應類別個數，即輸出 K 個mask，m對應池化解析度（7*7）。Loss 函式定義：

Lmask(Cls_k) = Sigmoid (Cls_k)，平均二值交叉熵（average binary cross-entropy）Loss，通過逐畫素的 Sigmoid 計算得到。

Why K個mask？通過對每個 Class 對應一個 Mask 可以有效避免類間競爭（其他 Class 不貢獻 Loss ）。

通過結果對比來看（Table2 b），也就是作者所說的 Decouple 解耦，要比多分類的 Softmax 效果好很多。

四. 對比實驗效果

另外，作者給出了很多實驗分割效果，就不都列了，只貼一張和 FCIS 的對比圖（FCIS 出現了Overlap 的問題）：

五. Mask-RCNN 擴充套件

Mask-RCNN 在姿態估計上的擴充套件，效果不錯，有興趣的童鞋可以看Paper。

Mask-RCNN技術解析

一. Mask-RCNN 介紹上篇文章介紹了 FCN，這篇文章引入個新的概念 Mask-RCNN，看著比較好理解哈，就是在 RCNN 的基礎上新增 Mask。 Mask-RCNN 來自於年輕有為的 Kaiming 大神，通過在 Faste

Mask RCNN 原始碼解析 (1)

Mask RCNN 屬於 RCNN這一系列的應該是比較最終的版本，融合多種演算法的思想，這裡對Mask RCNN從原始碼進行解析，主要寫幾篇文章，一個總結大的思路，其他文章整理細節。這篇文章為了簡單，主要從前向傳播和後向傳播，分兩部分進行介紹，主要以資料的流動為主線，分析

Mask RCNN 實戰(一)－－程式碼詳細解析

Mask RCNN:（大家有疑問的請在評論區留言）如果對原理不瞭解的話，可以花十分鐘先看一下我的這篇博文，在來進行實戰演練，這篇博文將是讓大家對mask rcnn 進行一個入門，我在後面的博文中會介紹mask rcnn 如何用於多人關鍵點檢測和多人姿態估計，以及如何利用ma

用友ERP T6技術解析（六）庫齡分析

dup dataset 解析產品 div sof tor query sqlcmd 2.4 庫存管理 2.4.1 庫齡分析介紹：庫存賬齡是在某時間節點，某種或某類存貨的庫存時間的加權平均值，跟庫存周轉率關系明顯。庫存周轉率越高，庫

《現代前端技術解析》第七章讀書筆記

應用開發理念 mvp css3 維護成本聯網不足 pan 做的　　《現代前端技術解析》是張成文寫的一本書，2017年4月出版的。先看的最後一章（第七章），第七章主要講的是未來前端技術的發展趨勢及如何成為一名優秀的前端工程師。　　過去幾年，前端主流技術框架發展極快

《現代前端技術解析》第一章讀書筆記（未完成）

服務異步網絡請求會話開始註冊復雜技術顯示　　今天是2017年6月26日，星期一，開始從第一章看起。第一章主要講的是前端技術的發展概況以及一些必須掌握的瀏覽器基礎知識與常用開發技術。　　頁面內容多而復雜，為了保證開發效率，我們可以借助符合特定場景的前端框架

【鄒神專場系列公開課】私有雲與OpenStack間精華技術解析

紅帽雲計算無疑是當下最熱門的技術，各大中小企業都在紛紛將自己的業務遷移到公有雲上，大企業都在忙著搭建自己的私有雲，國內外各大雲服務商都在積極推廣自己的雲計算，AWS，Google，微軟雲，阿裏雲，華為雲，萬達雲，網易雲，京東雲，騰訊雲，360雲，QingCloud，sysCloud，EasyStack，楚天雲

華為防火墻中所有NAT技術解析

華為防火墻 usg6000 nat napt nat-server nat分類根據源地址分類根據目的地址Inbound/outbound靜態動態分類轉換內容是否轉換端口特點源NAT地址池方式源IP地址可選采用地址池中的公網地址為私網用戶進行地址轉換，適用於大量私網用戶訪問Intern

elasticsearch技術解析與實戰(一) 入門和索引

ilog reat date str last dice elastics replicas nod GET _cat/nodes GET _cat/health GET _cat/shards GET http://10.37.84.124:9200/secislan

simpleXML技術解析xml文件（php）

返回 1.0 元素出名字 === 所有 php 技術 PC 1.simpleXML的核心思想：以面向對象的方法來操作xml文件此技術可以將xml文件的所有元素都轉成對象。會返回一個對象數組，再用foreach遍歷，即可得到元素的名稱，內容，和屬性值。 test.xml

Mask RCNN 學習筆記

目標泛化插值留言筆記步長 roi 閱讀開始涉及到的知識點補充：FasterRCNN：https://www.cnblogs.com/wangyong/p/8513563.html RoIPooling、RoIAlign：https://www.cnblogs.

技術解析系列 | PouchContainer volume機制解析

增加數據庫源碼文件中集群 eat 特性運行時管理平臺 PouchContainer 是阿裏巴巴集團開源的高效、輕量級企業級富容器引擎技術，擁有隔離性強、可移植性高、資源占用少等特性。可以幫助企業快速實現存量業務容器化，同時提高超大規模下數據中心的物理資源利用率。

技術解析系列 | PouchContainer CRI的設計與實現

路由配置成對 localhost prot 數據宿主機重新 ise ffffff CRI簡介在每個Kubernetes節點的最底層都有一個程序負責具體的容器創建刪除工作，Kubernetes會對其接口進行調用，從而完成容器的編排調度。我們將這一層軟件稱之為容器運行

技術解析系列 | PouchContainer 富容器技術

pad ini 方法掃描 tfs 設計鉤子證書開源技術劃重點本文將從什麽是富容器、富容器適用場景、富容器技術實現三個角度全方位向大家解釋富容器技術，同時對富容器感興趣的同學可以掃描文章末尾二維碼參與關於富容器的技術討論。本文作者 PouchContainer 團隊

技術解析系列 | PouchContainer 支持 LXCFS 實現高可靠容器隔離

系列 failed 掛載 ptime ota 開源 mil fetch 剖析技術解析系列 | PouchContainer 支持 LXCFS 實現高可靠容器隔離劃重點本周起 PouchContainer 啟動核心技術專家解析系列文章，第一篇文章將深入剖析 LXCFS 適用

Elasticsearch技術解析與實戰 PDF （內含目錄）

setting 4.6 2.2.3 tps 重寫約定系統檢測概念 Elasticsearch技術解析與實戰下載地址：https://pan.baidu.com/s/1q46lwAqzbUMs0qbKyBNBqg 關註微信公眾號獲取提取碼：　　輸入：esj

Mask RCNN 原理

adding 保留 rgb 固定特征添加原理尺度 obj 轉自：https://blog.csdn.net/ghw15221836342/article/details/80084861 https://blog.csdn.net/g

Mask-RCNN數據集制作

window rom ash 當前 enc 直接 clas glob 參數轉自https://blog.csdn.net/pingushen2100/article/details/80513043 一.Mask-RCNN數據集

核心技術解析：移動端車牌識別系統方案

ocr文字識別攝像頭 inf 人員 c代碼 cnblogs 單機研發安裝國內目前OCR車牌識別技術，主要細分為：1.識別車牌號碼、2.車牌顏色、3.車牌類型等車牌特征信息；算法采用清華TH-OCR技術，不僅融合了車牌定位、車牌字符切分、車牌字符識別等算法，而且系統具

技術解析: 手機車牌識別軟件—移動端車牌識別/OCR算法

edi width bsp 別了切割 png 應用場景 img 入口一直以來有朋友就《手機車牌識別軟件—OCR算法》與我進行討論，由於個人原因，一直沒有予以應答。今天借這個機會，就和大家一起分享一下所謂的：手機車牌識別軟件。第一種應用場景：車牌識別的應用場景隨處

Mask-RCNN技術解析

相關推薦