1. 程式人生 > >基於深度學習的影象分割: Learning to Segment Object Candidates -- Facebook

基於深度學習的影象分割: Learning to Segment Object Candidates -- Facebook

轉載請表明:http://blog.csdn.net/ikerpeng/article/details/52453830

內容概要:

採用的是 兩步走的 Object detection的 深度學習框架,首先通過框架的第一部分的分支給出 目標 proposal; 然後 在proposal當中進行檢測。 文章的的優點在於: proposal和 detection兩部分共享大部分網路,網路精簡 且效率高; 得到的proposal 數目更少,但是recall卻非常的高;文章的準確度大幅度的提高;目前剛剛開源。


演算法思路:

演算法中對於輸入的一張圖片,目標是要得到當中可能存在的目標proposals,以及各個proposal的得分值。為了達到這個目的演算法,將網路分為兩個分支,第一個部分輸出圖片patch塊的Mask,第二個分支得到它的得分值。兩個分支的前部分共享很大一部分的網路來得到底層的特徵。相比於其他的資料,資料的出入部分包括了畫素級別的掩碼標記。

資料部分:

每一個訓練樣本k都包括以下的三部分: 1.RGB三通道的樣本patch塊; 2. patch塊當中每一個畫素的 二值掩碼; 3. 樣本塊的標籤。 其中,如果在這個patch塊中心或附近存在一個object並且這個object在一定尺度的容忍範圍內 佔滿這個patch塊,那麼patch塊的標籤為1,否則為-1.再來看一下掩碼如何賦值: 當標籤為1的時候,如果某畫素點是中心點這個object(因為它有可能是別的object目標的一部分)的一部分的話,那在mask當中,這個畫素點的值為1,否則為-1;而當標籤為-1的時候,掩碼mask也就不用了(全部為0就好了)。

網路部分:

是在VGG-A網路進行的 fine-tuning(備註: 網路中包括8層的卷積網路(最後的卷積層輸出為 512張 feature maps),5層的maxpooling,以及三層的 fully connected),在構建本文的網路的時候,作者首先去掉VGG當中的全部的全連線層,以及最後的maxpooling層(因為,需要用到前面學到的特徵),因此網路當中海保留了4個 22的maxpooling層,因此相當於對於輸入的樣本進行了1/16的降取樣(這裡是有卷積後 尺度不變的假設的),然後構建出網路的兩個分支: Mask分支,接一個1

1的卷積核,然後再接了一個畫素級別的分類器(也算是一層,理論上說大小等於原來輸入的patch的畫素點個數,但是實際上應該小於,然後 上取樣還原); score分支,接一個maxpooling層然後加上兩個全連線層,最終輸出一個打分值,判斷patch的標籤。如下所示為訓練的損失函式


公式的前一部分是對mask部分的處理,其中前面的乘數部分表示說:對於不存在目標部分的掩碼,就不要在進行訓練了,也就是標籤為-1的時候帶入到損失函式中的時候,其實第一部分是為0的,而當對該畫素預測的掩碼的值和實際的值相接近的時候產生的損失就很小;第二部分是對patch塊的預測,看其中是否包含object。

應用細節:

經過變換後的樣本,在距離原來的樣本中心點 ±16個畫素點,尺度變換為0.8~1.2 都被視為是 和原來樣本一樣的,且也會被給予1的標籤;而如果是距離任何的樣本中心點 ±32個畫素點以上,尺度變換為0.5或者是2倍的範圍外都被視為是和原來樣本不一樣的,且也會被給予-1的標籤。

在 測試階段,對於輸入的一張圖片,以16pixels的步長變換location,以1/4到2倍的尺度(進行變換。這樣來保證至少有一個patch能夠包括其中所有的object。

效果示例:


作者: iker peng

時間:2016.9.6

相關推薦

基於深度學習影象分割 Learning to Segment Object Candidates -- Facebook

轉載請表明:http://blog.csdn.net/ikerpeng/article/details/52453830內容概要:採用的是 兩步走的 Object detection的 深度學習框架,首先通過框架的第一部分的分支給出 目標 proposal; 然後 在prop

深度學習筆記1end-to-end、anchor box解釋、人體檢測程式碼

非end-to-end方法: 目前目標檢測領域,效果最好,影響力最大的還是RCNN那一套框架,這種方法需要先在影象中提取可能含有目標的候選框(region proposal), 然後將這些候選框輸入到CNN模型,讓CNN判斷候選框中是否真的有目標,以及目標的類別是什麼。在我們看到的結果中,往往是類似與下圖這種

深度學習 影象分割開原始碼(附連結,超級全)

轉自github,感謝作者mrgloom的整理 Awesome Semantic Segmentation Networks by architecture Semantic segmentation Instance aware segmentation

論文閱讀筆記二十二Learning to Segment Instances in Videos with Spatial Propagation Network(CVPR-20017)

論文源址:https://arxiv.org/abs/1709.04609 摘要       該文提出了基於深度學習的例項分割框架,主要分為三步,(1)訓練一個基於ResNet-101的通用模型,用於分割影象中的前景和背景。(2)將通用模型進行微調成為一個例項分割模型,藉

論文Learning to Segment everything閱讀筆記

Learning to Segment everything 目錄 Learning to Segment everything 1 概述 2 分割一切 3 實驗 4 大規模例項分割 1 概述 例項分割(instance segmentatio

基於深度學習影象檢索 image retrieval based on deep learning (code ,程式碼)

本次程式碼分享主要是用的caffe框架,至於caffe框架的安裝過程不再說明。程式碼修改自“cross weights”的一篇2016年的文章,但是名字忘記了,誰記得,提醒我下。 一、環境要求         1、python &nb

基於深度學習影象語義分割技術概述之4常用方法 5.4未來研究方向

https://blog.csdn.net/u014593748/article/details/72794459 本文為論文閱讀筆記,不當之處,敬請指正。 A Review on Deep Learning Techniques Applied to Semantic Segmen

opencv學習筆記五十七基於分水嶺的影象分割

#include<opencv2\opencv.hpp> using namespace cv; using namespace std; int main(int arc, char** argv) { Mat src = imread("1.jpg");

基於深度學習影象語義分割演算法綜述(截止20180715)

這篇文章講述卷積神經網路在影象語義分割(semantic image segmentation)的應用。影象分割這項計算機視覺任務需要判定一張圖片中特定區域的所屬類別。 這個影象裡有什麼?它在影象中哪個位置? 更具體地說,影象語義分割的目標是將影象的每個畫素所

基於深度學習影象分割總結

一、影象分割類別 隨著深度學習的發展,在分割任務中出現了許多優秀的網路。根據實際分割應用任務的不同,可以大致將分割分為三個研究方向:語義分割、例項分割、全景分割。這三種分割在某種意義上是具有一定的聯絡的。 語義分割: 畫素級別的語義分割,對影象中的每個畫素都劃分出對應的

乾貨曝光(三)| 資深架構師深度剖析基於深度學習的End-to-End

origin: http://www.sohu.com/a/162012646_7956222017-08-03 16:58 作業系統 /百度 7月22日,百度自動駕駛事業部資深架構師、資料平臺專家楊凡,百度自動駕駛

基於深度學習影象分割和keras 的實現

影象分割 深度學習尤其是卷積神經網路在影象處理的許多領域都獲得了很大的成功,在分類,識別等方面都已經獲得了很大的成功.在深度學習把影象分類和識別達到極致之後。深度學習開始在影象分割方面開始進行收割了。影象分割的意思就是對於影象中每個畫素進行分類操作。

基於深度學習影象語義分割演算法綜述

   作者: 葉  虎            編輯:趙一帆           前  言本文翻譯

基於深度學習影象語義分割技術概述之4常用方法

本文為論文閱讀筆記,不當之處,敬請指正。 A Review on Deep Learning Techniques Applied to Semantic Segmentation:原文連結 4 深度學習影象分割的常用方法 深度學習在多種高階計算機視

基於深度學習影象語義分割技術概述之背景與深度網路架構

本文為論文閱讀筆記,不當之處,敬請指正。  A Review on Deep Learning Techniques Applied to Semantic Segmentation: 原文連結 摘要 影象語義分割正在逐漸成為計算機視覺及機器學習研究人員的研究熱點。大

基於深度學習影象分割在高德的實踐

一、前言 影象分割(Image Segmentation)是計算機視覺領域中的一項重要基礎技術,是影象理解中的重要一環。影象分割是將數字影象細分為多個影象子區域的過程,通過簡化或改變影象的表示形式,讓影象能夠更加容易被理解。更簡單地說,影象分割就是為數字影象中的每一個畫素附加標籤,使得具有相同標籤的畫素具有某

基於深度學習的圖像語義分割技術概述之5.1度量標準

-s 公平性 的確 由於 表示 n-2 sub 包含 提升 本文為論文閱讀筆記,不當之處,敬請指正。 A Review on Deep Learning Techniques Applied to Semantic Segmentation:原文鏈接 5.1度量標準 為何需

學習筆記之——基於深度學習影象超解析度重構

       最近開展影象超解析度( Image Super Resolution)方面的研究,做了一些列的調研,並結合本人的理解總結成本博文~(本博文僅用於本人的學習筆記,不做商業用途) 本博文涉及的paper已經打包,供各位看客下載哈~h

第三篇基於深度學習的人臉特徵點檢測 - 資料集整理

https://yinguobing.com/facial-landmark-localization-by-deep-learning-data-collate/ 在上一篇博文中,我們已經下載到了包括300-W、LFPW、HELEN、AFW、IBUG和300-VW在內的6個數據集,初步估算有2

第五篇基於深度學習的人臉特徵點檢測 - 生成TFRecord檔案

在上一篇博文中,我們已經獲取到了所有樣本的面部區域,並且對面部區域的有效性進行了驗證。當使用TensorFlow進行神經網路訓練時,涉及到的大量IO操作會成為訓練速度的瓶頸。為了加快訓練的速度,方便後期利用與復現,需要將所有用到的資料打包成為TFRecord檔案,一種TensorFlow原生支援的資