第五週學習
MobileNetV1,MobileNetV2,HybridSN:https://www.cnblogs.com/logt/articles/14002078.html
Deep Supervised Cross-modal Retrieval
動機
以前的方法中儘管使用了分類資訊,但分類資訊僅用於學習每個模態內或模態間的鑑別特徵,並沒有充分利用語義資訊。
貢獻
-
提出了一種基於深度監督的多模態學習結構,以彌補多模態間的異構性。通過端到端同時保持語義區分和模態不變性,可以有效地學習異構資料的公共表示。
-
提出了兩種具有權值共享約束的子網路來學習影象和文字模態之間的交叉模態相關。另外,將模態不變性損失直接轉化為目標函式,以消除模態間的差異。
-
利用線性分類器對公共表示空間中的樣本進行分類。這樣,DSCMR最大限度地減少了標籤空間和公共表示空間的辨別損失,使得學習的公共表示具有顯著的可區分性。
-
在廣泛使用的基準資料集上進行了大量的實驗。結果表明,該方法在跨模態檢索方面優於現有的方法,表明了該方法的有效性。
網路結構
將影象和文字分別輸入到影象CNN和文字CNN中,獲得原始的高階語義表示。然後,在它們的頂部分別新增一些完全連線的層,將來自不同模式的樣本對映到一個共同的表示空間。最後,使用線性分類器(引數在P中)預測每個樣本的類別。
針對影象模態的深度神經網路的卷積層與在 ImageNet 上預先訓練的 19 層 VGGNet 中的卷積層相同。我們從 fc7 層生成 4096 維的特徵向量作為影象的原始高階語義表示,記作 \(h_i^{\alpha}\)
為了實現文字的公共表示學習,我們首先使用 Word2Vec 模型將每個網路表示為一個 k 維特徵向量,該模型對谷歌新聞中的數十億個單詞進行了預處理。因此,每個文字可以表示為一個矩陣,每一列表示為一個k維特徵向量。然後,將文字矩陣作為與句子 CNN 相同的配置輸入到卷積層中,生成文字的原始高階語義表示,記作 \(h_i^{\beta}\)。以類似的方式,遵循一些全連線層來學習文字的公共表示,記作 \(v_i\)。
損失函式
本文的主要貢獻是提出了三個損失函式
\[\mathcal{J}_{1}=\frac{1}{n}\left\|\mathbf{P}^{T} \mathbf{U}-\mathbf{Y}\right\|_{F}+\frac{1}{n}\left\|\mathbf{P}^{T} \mathbf{V}-\mathbf{Y}\right\|_{F} \]該函式主要用於衡量標籤空間中的辨別損失。
該函式直接測量了兩種模式在公共表示空間中所有樣本的識別損失,式中第一項用來衡量交叉模態中影象和文字的相似性,第二和第三項可能分別測量影象和影象樣本、文字和文字樣本的相似性。\(J_2\) 是公共表示形式的合理相似度度量,並且是學習判別特徵的良好標準。
\[\mathcal{J}_{3}=\frac{1}{n}\|\mathbf{U}-\mathbf{V}\|_{F} \]該函式是為了消除跨模態差異,最小化所有影象-文字對的表示之間的距離。
結合上述三式,最終損失函式為:
\[\mathcal{J}=\mathcal{J}_{1}+\lambda \mathcal{J}_{2}+\eta \mathcal{J}_{3} \]演算法步驟
實驗
為了驗證該方法的有效性,我們對四種廣泛使用的基準資料集進行了實驗:Wikipedia資料集、Pascal語句資料集、NUS-WIDE-10k資料集和XMediaNet資料集。
為了驗證我們提出的方法的有效性,我們在實驗中將提出的方法與十種最新方法進行了比較,下圖是在Pascal語句資料集上的實驗結果,優於現有的方法。
通過視覺化操作,我們可以看到,原本分佈較為散亂的圖片,在經過處理以後變得比較有規律。並且,圖片與文字的分佈一致性非常強。
問題
程式碼中沒有看到使用 VGG