論文筆記:雙線性模型 《Bilinear CNN Models for Fine-Grained Visual Recognition》
雙線性模型是2015年提出的一種細粒度影象分類模型。該模型使用的是兩個並列的CNN模型,這種CNN模型使用的是AlexNet或VGGNet去掉最後的全連線層和softmax層,這個作為特徵提取器,然後使用SVM作為最後的線性分類器。當然,作者還在實驗中嘗試了多種方法,比如最後使用softmax但類別有所減少的分類器,作者在特徵提取器上也有三種嘗試,分別是使用兩個AlexNet,使用一個AlexNet和一個VGGNet,和使用兩個VGGNet,這三種特徵提取的方法在不同的資料集上效果各有一些小差別,但是總體來說,相比其他型別的細粒度分類方法在精度上有較大提高,比如使用CNN特徵的Fisher Vector(FV-CNN)方法,使用SIFT特徵的Fisher Vector(FV-SIFT)方法,普通的帶全連線層的卷積神經網路(FC-CNN)方法。
雙線性影象分類模型示意圖如下:
用於影象分類的雙線性模型由四元組組成。 這裡和是特徵函式,是池化函式,是分類函式。 特徵函式是一個對映 ,輸入影象和位置並輸出大小為 的特徵。 我們說的位置通常是可以包含位置和尺度。 特徵輸出在每個位置上使用矩陣外積進行組合,即在位置處的和的雙線性特徵組合由雙線性函式 給出。
這種模型具有以下優點:
1,該架構能夠以平移不變的方式,對區域性的對級(pairwise)特徵互動進行建模,適用於細粒度分類。
2,能夠泛化多種順序無關的特徵描述子,如Fisher 向量,VLAD及O2P。實驗中使用使用卷積神經網路的作為特徵提取器的雙線性模型。
3,雙線性形式簡化了梯度計算,能夠對兩個網路在只有影象標籤的情況下進行端到端訓練。
這篇論文中提到的一些技術比如Fisher Vector方法,SIFT特徵提取,VLAD,Bag-of-Visual-Words。然後在雙線性模型裡面的一些細節還是有很多不懂得地方。
參考:
Lin T Y, Roychowdhury A, Maji S. Bilinear CNN Models for Fine-Grained Visual Recognition[J]. 2015:1449-1457.