Deep Learning for Content-Based Image Retrival:A Comprehensive Study 學習筆記
3.1Deep Convolutional Neural Networks
採用的深度學習模型是[1]
為了減少過擬合,使用了兩種資料增強的方式:(1)從原始的256×256的影象中通過轉變和水平對映(translation and horizontal reflection)提取出隨機的224×224的塊訓練使用(2)為了捕獲亮度和顏色的不變性(to capture the invariance in illumination and color),在資料庫增加了大量隨機的RGB畫素值的主成份。通過作者在[1]中可知,這種方式可以減少1%的錯誤。
在輸入層的後面是5個卷積層,第一個卷積層和第二個卷積層之後是一個歸一化層(normalization layer)和最大池化層(max pooling layer)。這個網路結構中有幾個新穎或者不同的特點使得比之前的卷積網路效果更好。(1)神經元輸出函式f是非線性的:Rectified Linear units(ReLUs),和tanh函式相比,可以減少神經網路的訓練時間。(2)採用了局部響應歸一化(local response normalization)(LRN),這可以對泛化(generalization)有幫助。(3)採用重疊池化(overlapping pooling)的方法。論文中[1]中,作者使用了重疊池化,其他的設定都不變的情況下, top-1和top-5 的錯誤率分別減少了0.4% 和0.3%。
在卷積層的後面有兩個連線4096個神經元的全連線層,記為FC1和FC2,最後是一個輸出層,和FC2連線,是一個softmax層來輸出1000個分類。
3.2Feature Representation for CBIR
使用CNNs在影象分類上已經有了很多研究,在影象檢索的應用還是一個新領域。作者對於深度學習作用於CBIR提出了兩個問題:(1)在ImageNet上,如何用訓練好的用於分類的CNNs來用於檢索(2)在可能缺少訓練資料的情況下,如何產生一個通過學習特徵來進行CBUR的CNNs模型。
特別地,採用一個訓練好的CNNs模型的FC1,FC2,FC3層作為CBIR 的特徵表示。其中的FC3是從輸出層得到的特徵。這種方法對於一個新的資料集的效果不好,下面描述了三種特徵表示的方法。
3.2.1Direct Representation
直接用模型的後三層作為特徵表示
3.2.2Refining by Similarity Learing
使用了線上相似性學習演算法(online similarity learning algorithm)
3.2.3 Refining by Model Retraining
(1)Refining with class label
(2)Refining with side information
[1]Alex Krizhevsky,Ilya Sutskever,Geoffrey E. Hinton.ImageNet Classification with Deep ConvolutionalNeural Networks