基於隨機場的影象語義分割
影象的語義分割無非就是畫素級的操作,在畫素上去學習監督/非監督的模型,然後去預測每一個畫素的類別從而實現影象的語義分割。事實上,影象的高層語義資訊是很難獲取的,但是這個任務的目標是很明確的,就是給每個畫素打上label。目前,深度學習技術在計算機視覺領域取得了很大成功;而影象的語義分割也藉助深度學習技術實現了準確率的大幅提升。比如全卷積神經網路(FCN,Fully Convolutional Networks),網路結構如下圖:
FCN在影象的語義分割領域算得上是一個開創性的工作(end to end)。由於是畫素級的分割,它丟棄了全連線層,取而代之的是反捲積操作;得到跟輸入影象同樣size的輸出;與ground truth構造損失函式,反向傳播訓練各層的引數。從網路結構圖可以看出,不斷的卷積池化操作等,使得後續畫素點的感受野不斷增大;最後得到一個較粗的分割圖也不難理解。當然,後續的語義分割模型都是在FCN的基礎上進行改進;比如,改善網路層級結構(SegNet, DeconvNet);改進卷積核(DeepLab)等等;其中最重要的一個分支便是在得到的粗分割圖的基礎上融入馬爾科夫隨機場進一步精細化。該文將重點探討怎麼結合深度卷積網路和全連線條件隨機場去做影象的語義分割。
稱為勢函式,一般在2D影象空間中包含兩項:一元勢函式(unary potential)和成對勢函式(Pairwise potential),定義如下:
這裡為了方便,省略了觀測資料;這就是全連線條件隨機場的定義。在一元勢函式中,它定義了標籤在給定資料下的概率分佈。一般而言,這一項我們可以用傳統的比如SVM,SoftMax,隨機森林等去監督學習;或者用混合高斯模型去非監督學習。隨著深度卷積神經網路在計算機視覺領域的成功應用,最近的文獻一般都用CNN網路結構,並接上SoftMax輸出概率分佈。比如,如果我們只考慮隨機場中的第一項,並且使用卷積神經網路,那麼這個工作就類似於前面講述的FCN,SegNet等。但是這些網路結構得到的結果圖比較粗糙,所以我們考慮第二項-成對勢函式。成對勢函式的定義形式多種多樣,這裡我們採用Nips11上的Efficient inference in fully connected crfs with gaussian edge potentials中的定義,
其中為類別標籤的相容性;為第個濾波卷積核,為其權重係數;為濾波卷積核的總個數,比如可以採用高斯核,雙邊濾波核等等;為特徵向量,比如顏色值和空間位置。該項實質刻畫的是影象資料的平滑性,鼓勵具有相同屬性的資料具有相同的標籤。
最小化該勢函式,便能得到最有可能的標籤集合。然而這類問題很難精確的優化求解,可採用的是近似求解技術,比如取樣技術和變分推斷。這裡將詳細介紹變分推斷在這類問題的求解。變分推斷的實質就是使用已知簡單分佈來逼近需要推斷的複雜分佈,並通過限制近似分佈的型別,從而得到一種區域性最優,但具有確定解的近似後驗分佈。因此,我們使用隱變數集的簡單且獨立的分佈來近似。那麼根據變分推斷-平均場的結論,子變數的分佈的對數形式具有確定解,且等於聯合似然函式lnp(X)在變數之外的隱變數集分佈上的期望:
進一步整理可得
為歸一化因子,即L1歸一化,使得概率分佈和值為1。下面要做的便是將
影象語義分割之FCN和CRF
前言 (嘔血製作啊!)前幾天剛好做了個影象語義分割的彙報,把最近看的論文和一些想法講了一下。所以今天就把它總結成文章啦,方便大家一起討論討論。本文只是展示了一些比較經典和自己覺得比較不錯的結構,畢竟這方面還是有挺多的結構方法了。 介紹 影象語義分
基於RGB-D的語義分割和目標檢測介紹
寒假的時候看了一篇論文——Multimodal Neural Networks: RGB-D for Semantic Segmentation and Object Detection這篇論文是2017年發表的一篇會議論文介紹將深度圖引入計算機視覺的處理任務,下面是我對這篇
使用深度學習技術的影象語義分割最新綜述
http://abumaster.com/2017/07/10/%E4%BD%BF%E7%94%A8%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E6%8A%80%E6%9C%AF%E7%9A%84%E5%9B%BE%E5%83%8F%E8%AF
當前主流的深度學習影象語義分割模型解析
轉載自【量子位】公眾號 QbitAI原文地址:http://www.sohu.com/a/155907339_610300影象語義分割就是機器自動從影象中分割出物件區域,並識別其中的內容。量子位今天推薦的這篇文章,回顧了深度學習在影象語義分割中的發展歷程。釋出這篇文章的Qur
推薦一些用CRF做影象語義分割的資源 此博文包含圖片
(201http://blog.csdn.net/moonzjaw/article/details/46744163http://blog.csdn.net/moonzjaw/article/details/467441632-04-19 17:32:11) (adsbygoo
影象語義分割(12)-重新思考空洞卷積: 為弱監督和半監督語義分割設計的簡捷方法
論文地址 :Revisiting Dilated Convolution: A Simple Approach for Weakly- and Semi- Supervised Semantic Segmentation 1. 摘要 儘管弱監督分割方法的精度有所提升,但是和全
影象語義分割(11)-BiSeNet:用於實時語義分割的雙向分割網路
論文地址 :BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation 1. 摘要 語義分割任務不僅需要豐富的空間位置資訊,還需要尺寸客觀的感受野,但是現有的方法為了提速往往採取損失空