Fully Convolutional Networks
Fully Convolutional Networks (2015)
影象分割即對每一個畫素進行預測
我們分類使用的網路通常會在最後連線幾層全連線層,它會將原來二維的矩陣(圖片)壓扁成一維的,從而丟失了空間資訊,最後訓練輸出一個標量,這就是我們的分類標籤。而影象語義分割的輸出需要是個分割圖,且不論尺寸大小,但是至少是二維的。所以,我們需要丟棄全連線層,換上全卷積層,而這就是全卷積網路了
一、模型
(1)
(2)
(3)
上面圖一描繪的是FCN的整體結構,前面特徵提取的網路可以採用一些成功的分類網路(如VGG等),引數帶入進來再進行一些微調就好。對影象的特徵提取後(即下采樣後),再採用反捲積的方式對特徵圖進行上取樣,恢復到原圖的尺寸,這樣來實現影象的分割。
圖二是展示的將分類網路遷移進FCN。
論文中提到的三種FCN結構:FCN-8s、FCN-16s、FCN-32s,每一個對前面不同尺度的特徵結合程度不同,數字代表最後一層進行幾倍的上取樣。
二、實驗
FCN-8s與SDS、R-CNN的比較,FCN-8s在PASCAL VOC2011和2012測試集上的mean IU分別達到了62.7和62.2。
FCN-8s和幾個當時比較先進的分割模型輸出的結果的對比。(注:最後一行,那個救生艇上面不是人,全是救生衣...)。
三、待改進之處
1、FCN為了使得前面部分卷積池化之後輸出的特徵圖尺寸不要太小,作者在第一層直接對原圖加了100的padding,可想而知,這會引入噪聲
四、意義
1、FCN的意義在於,它首次將深度學習引入到影象分割的領域。通過去除分類網路後面全連線層的方式,來獲取到二維的特徵圖(雖然解析度只有原圖的1/32),再用反捲積(上取樣)的方式來根據二維特徵圖還原成最終輸出。
2、FCN的主要特點歸為三點:卷積化、上取樣、skip結構