基於隨機場的影象語義分割

影象的語義分割無非就是畫素級的操作，在畫素上去學習監督/非監督的模型，然後去預測每一個畫素的類別從而實現影象的語義分割。事實上，影象的高層語義資訊是很難獲取的，但是這個任務的目標是很明確的，就是給每個畫素打上label。目前，深度學習技術在計算機視覺領域取得了很大成功；而影象的語義分割也藉助深度學習技術實現了準確率的大幅提升。比如全卷積神經網路(FCN，Fully Convolutional Networks)，網路結構如下圖：
這裡寫圖片描述
FCN在影象的語義分割領域算得上是一個開創性的工作(end to end)。由於是畫素級的分割，它丟棄了全連線層，取而代之的是反捲積操作；得到跟輸入影象同樣size的輸出；與ground truth構造損失函式，反向傳播訓練各層的引數。從網路結構圖可以看出，不斷的卷積池化操作等，使得後續畫素點的感受野不斷增大；最後得到一個較粗的分割圖也不難理解。當然，後續的語義分割模型都是在FCN的基礎上進行改進；比如，改善網路層級結構(SegNet, DeconvNet)；改進卷積核(DeepLab)等等；其中最重要的一個分支便是在得到的粗分割圖的基礎上融入馬爾科夫隨機場進一步精細化。該文將重點探討怎麼結合深度卷積網路和全連線條件隨機場去做影象的語義分割。

條件隨機場(Conditinal random field, CRF)是給定一組隨機變數條件下另一組輸出隨機變數的條件概率分佈模型，其特點是假設輸出隨機變數構成馬爾科夫隨機場。即輸出變數之間存在成對馬爾科夫性，區域性馬爾可夫性和全域性馬爾可夫性。說白了，就是沒有邊連線的節點滿足條件獨立性。而在全連線條件隨機場中，假設其中一個節點與其餘所有節點都有邊的連線。這裡，我們考慮全連線條件隨機場。在影象分割領域，影象資料

I

為可觀測變數集，而待推斷的隱變數集

X = {x_{i}}_{i = 1}^{N}

，也即要預測的每一個畫素的label，構成馬爾科夫隨機場。根據Hammersley-Clifford定理，其聯合概率形式如下：

P (X | I) = \frac{1}{Z} e x p {- E (X)}

$E (X)$ 稱為勢函式，一般在2D影象空間中包含兩項：一元勢函式(unary potential)和成對勢函式(Pairwise potential)，定義如下:

E (X) = \sum_{i} ψ_{u} (x_{i}) + \sum_{i < j} ψ_{p} (x_{i}, x_{j})

這裡為了方便，省略了觀測資料 $I$ ；這就是全連線條件隨機場的定義。在一元勢函式中，它定義了標籤 $x_{i}$ 在給定資料 $I_{i}$ 下的概率分佈。一般而言，這一項我們可以用傳統的比如SVM，SoftMax，隨機森林等去監督學習；或者用混合高斯模型去非監督學習。隨著深度卷積神經網路在計算機視覺領域的成功應用，最近的文獻一般都用CNN網路結構，並接上SoftMax輸出概率分佈。比如，如果我們只考慮隨機場中的第一項，並且使用卷積神經網路，那麼這個工作就類似於前面講述的FCN，SegNet等。但是這些網路結構得到的結果圖比較粗糙，所以我們考慮第二項-成對勢函式。成對勢函式的定義形式多種多樣，這裡我們採用Nips11上的Efficient inference in fully connected crfs with gaussian edge potentials中的定義，

ψ_{p} (x_{i}, x_{j}) = u (x_{i}, x_{j}) \sum_{m = 1}^{M} ω^{m} K_{G}^{m} (f_{i}, f_{j})

其中 $u (x_{i}, x_{j})$ 為類別標籤的相容性； $K_{G}^{m}$ 為第 $m$ 個濾波卷積核， $ω^{m}$ 為其權重係數； $M$ 為濾波卷積核的總個數，比如可以採用高斯核，雙邊濾波核等等； $f$ 為特徵向量，比如顏色值和空間位置。該項實質刻畫的是影象資料的平滑性，鼓勵具有相同屬性的資料具有相同的標籤。
最小化該勢函式 $E (X)$ ，便能得到最有可能的標籤集合。然而這類問題很難精確的優化求解，可採用的是近似求解技術，比如取樣技術和變分推斷。這裡將詳細介紹變分推斷在這類問題的求解。變分推斷的實質就是使用已知簡單分佈來逼近需要推斷的複雜分佈，並通過限制近似分佈的型別，從而得到一種區域性最優，但具有確定解的近似後驗分佈。因此，我們使用隱變數集的簡單且獨立的分佈 $Q (X) = \prod_{i} Q (x_{i})$ 來近似 $P (X)$ 。那麼根據變分推斷-平均場的結論，子變數的分佈 $Q (x_{i})$ 的對數形式具有確定解，且等於聯合似然函式lnp(X)在變數 $x_{i}$ 之外的隱變數集分佈上的期望：

\ln Q (x_{i}) = E_{j \neq i} \ln P (X | I) + c o n s t

進一步整理可得

Q (x_{i}) = \frac{1}{Z} e x p {E_{j \neq i} \ln P (X | I)}

$Z$ 為歸一化因子，即L1歸一化，使得概率分佈和值為1。下面要做的便是將 $P (X <$

基於隨機場的影象語義分割

影象語義分割之FCN和CRF

基於RGB-D的語義分割和目標檢測介紹

使用深度學習技術的影象語義分割最新綜述

當前主流的深度學習影象語義分割模型解析

推薦一些用CRF做影象語義分割的資源此博文包含圖片

影象語義分割(12)-重新思考空洞卷積: 為弱監督和半監督語義分割設計的簡捷方法

影象語義分割(11)-BiSeNet:用於實時語義分割的雙向分割網路

基於隨機場的影象語義分割

影象語義分割之FCN和CRF

基於RGB-D的語義分割和目標檢測介紹

使用深度學習技術的影象語義分割最新綜述

當前主流的深度學習影象語義分割模型解析

推薦一些用CRF做影象語義分割的資源 此博文包含圖片

影象語義分割(12)-重新思考空洞卷積: 為弱監督和半監督語義分割設計的簡捷方法

影象語義分割(11)-BiSeNet:用於實時語義分割的雙向分割網路

推薦一些用CRF做影象語義分割的資源此博文包含圖片