1. 程式人生 > 其它 >Fully Convolutional Networks

Fully Convolutional Networks

Fully Convolutional Networks (2015)

影象分割即對每一個畫素進行預測

我們分類使用的網路通常會在最後連線幾層全連線層,它會將原來二維的矩陣(圖片)壓扁成一維的,從而丟失了空間資訊,最後訓練輸出一個標量,這就是我們的分類標籤。而影象語義分割的輸出需要是個分割圖,且不論尺寸大小,但是至少是二維的。所以,我們需要丟棄全連線層,換上全卷積層,而這就是全卷積網路了

一、模型

​ (1)

​ (2)

​ (3)

上面圖一描繪的是FCN的整體結構,前面特徵提取的網路可以採用一些成功的分類網路(如VGG等),引數帶入進來再進行一些微調就好。對影象的特徵提取後(即下采樣後),再採用反捲積的方式對特徵圖進行上取樣,恢復到原圖的尺寸,這樣來實現影象的分割。

圖二是展示的將分類網路遷移進FCN。

論文中提到的三種FCN結構:FCN-8s、FCN-16s、FCN-32s,每一個對前面不同尺度的特徵結合程度不同,數字代表最後一層進行幾倍的上取樣。

二、實驗

FCN-8s與SDS、R-CNN的比較,FCN-8s在PASCAL VOC2011和2012測試集上的mean IU分別達到了62.7和62.2。

FCN-8s和幾個當時比較先進的分割模型輸出的結果的對比。(注:最後一行,那個救生艇上面不是人,全是救生衣...)。

三、待改進之處

1、FCN為了使得前面部分卷積池化之後輸出的特徵圖尺寸不要太小,作者在第一層直接對原圖加了100的padding,可想而知,這會引入噪聲

四、意義

1、FCN的意義在於,它首次將深度學習引入到影象分割的領域。通過去除分類網路後面全連線層的方式,來獲取到二維的特徵圖(雖然解析度只有原圖的1/32),再用反捲積(上取樣)的方式來根據二維特徵圖還原成最終輸出。

2、FCN的主要特點歸為三點:卷積化、上取樣、skip結構