Dual Adversarial Networks for Zero-shot Cross-media Retrieval 閱讀筆記

阿新 • • 發佈：2018-12-18

Dual Adversarial Networks for Zero-shot Cross-media Retrieval (DANZCR)：由兩個GAN組成，分別用於共同表示生成與原始表示重建，它們捕獲底層資料結構，並加強輸入資料和語義空間之間的關係，以概括已見和未見類別。DANZCR通過對抗學習方法，利用詞嵌入來學習語義空間的共同表示。該方法保留了固有的跨媒體相關性，並提高了知識遷移到新類別的能力。

introduction

採用詞嵌入作為語義空間，通過對抗性學習框架將不同媒體型別的資料轉換到語義空間。具體地，該方法在雙重結構中建立GAN，其中前向GAN從輸入影象和文字中學習以在語義空間中生成共同表示;反向GAN使用生成的公共表示來重建輸入影象和文字以保留原始資料結構。DANZCR方法同時執行零樣本學習和相關學習，可以生成共同表示來進行零樣本跨媒體檢索。

主要貢獻：

提出對偶GANs結構，用於零樣本跨媒體檢索。兩個GAN協作相互促進，捕獲底層資料結構，並加強輸入資料和語義空間之間的關係，以概括已知和未知的類別。
針對零樣本跨媒體檢索提出了一種對抗性訓練方法，該方法通過從媒體型別和類別中區分生成的共同表達學習共同表達，以保留固有的跨媒體相關性。利用詞嵌入來生成共同表示，通過對抗性訓練，建模語義資訊，從而增強知識向未知類別轉移的能力。

related work

跨媒體檢索。。。
零樣本學習。。。
GAN：受影象翻譯工作的啟發，將零樣本跨媒體檢索視為輸入空間和語義空間之間的域變換問題。將GAN用作每種媒體型別的雙重結構的基本模組，並在多路徑網路中為跨媒體資料生成通用語義表示。

approach

問題定義：

資料集： $D=\left \{ D_{UD},D_{UQ},D_{SD},D_{SQ} \right \}$ ，

其中： $D_{UD}$ ：未知類資料集， $D_{UQ}$ ：未知類查詢集， $D_{SD}$ ：已知類資料集， $D_{SQ}$ ：已知類查詢集。

$D_{UD}=\left \{{i_n,t_n,l_n} \right \}^{N_{UD}}_{n=1}$ ，第n個例項的影象，文字，相關類別標籤。

用 $D_{SD}$ 訓練，對於零樣本檢索用 $D_{UQ}$ 測試，對於傳統場景用 $D_{SQ}$ 測試。

Architecture of DANZCR：

對每一個媒體型別，首先生成 original representation ，然後前向GAN從original representation生成 common representation，反向GAN將common representation轉變為original representation，這是一個對偶的過程。

每個GAN都由一個生成模型和一個判別模型組成，詳細的網路結構如下

1）前向GAN：類別詞嵌入作為監督資訊，生成語義共同表達，以建模不同媒體型別和不同類別的相關性。

$G_{FI}$ ， $D_{FI}$ ：影象的前向生成模型，判別模型；

$G_{FT}$ ， $D_{FT}$ ：文字的前向生成模型，判別模型。

前向生成模型：用一些全連線層，從原始表達中生成共同表達。影象例項： $i_n$ ，影象的原始表達： $f^i_n$ ，共同表達： $s^i_n$ ；文字： $t_n$ ， $f^t_n$ ， $s^t_n$ ；所以有： $s^i_n=G_{FI}(f^i_n)$ , $s^i_t=G_{FT}(f^t_n)$ （影象、文字原始表達經過前向生成模型變為影象、文字的共同表達）
前向判別模型：一些全連線層，判別生成的共同表達屬於哪一個媒體型別和類別。將原始表達和共同表達的連線作為輸入，輸出是單個值，用於預測生成的公共表示是否真實，以及判別公共表示和資料表示之間的語義相關性。 $D_{FI}$ （ $D_{FT}$ ）試圖判別相關類別的詞嵌入 $s^l_n$ 是真實的資料，生成的共同表達 $s^i_n$ 、 $s^t_n$ 以及不相關類別的詞嵌入 $s^{l'}_n$ 是假的。

（2）反向GAN:用來重構輸入資料的原始表達，這使得公共表示保留資料原始結構，並且增強輸入資料和語義空間之間的關係。

$G_{RI}$ , $D_{RI}$ , $G_{RT}$ , $D_{RT}$

反向生成模型：一些全連線層，學習common representation，以重構輸入資料的原始表示（reconstruction representations ）。reconstruction representation： $r^i_n$ , $r^t_n$ ，所以 $r^i_n=G_{RI}(G_{FI}({f^i_n}))=G_{RI}(s^i_n)$ .（先由正向生成模型生成common representation $s^i_n$ ，再由反向生成模型生成reconstruction representation $r^i_n$ ）
反向判別模型：：一些全連線層。輸入資料表示，輸出單個值來預測資料表示是否真實。 $D_{RI}$ （ $D_{RT}$ ）試圖判別影象原始表示 $f^i_n$ 是真實的，reconstruction representation 是假的。

由於只有少量已知類別的資料，為了進一步加強相關學習，提出了一種基於L2範數的恢復目標函式：

DANZCR方法的全部目標函式是：

優化過程：

（1）生成共同表達：提取影象/文字原始表示，前向生成模型生成共同表達。

（2）前向判別模型的優化：對影象和文字分別採用上升隨機梯度對前向判別模型進行訓練。

（3）表示重構：反向生成模型從共同表達生成重構表示（reconstruction representation）。

（4）反向判別模型的優化：通過定義隨機梯度方程。

（5）前向生成模型的優化

（6）前向和反向生成模型的優化

Experiments

Dual Adversarial Networks for Zero-shot Cross-media Retrieval 閱讀筆記

Dual Adversarial Networks for Zero-shot Cross-media Retrieval (DANZCR)：由兩個GAN組成，分別用於共同表示生成與原始表示重建，它們捕獲底層資料結構，並加強輸入資料和語義空間之間的關係，以概括已見和未

Adversarial Examples for Semantic Segmentation and Object Detection 閱讀筆記

Adversarial Examples for Semantic Segmentation and Object Detection （語義分割和目標檢測中的對抗樣本）作者：Cihang Xie, Jianyu Wang, Zhishuai Zhang, Yuyin Zhou, Lingxi Xie,

【論文閱讀】Siamese Neural Networks for One-shot Image Recognition

關鍵詞： one-short learning : 待解決的問題只有少量的標註資料，先驗知識很匱乏，遷移學習就屬於one-short learning的一種 zero-short learning: 這個種情況下完全沒有

論文解讀：DeLiGAN: Generative Adversarial Networks for Diverse and Limited Data

前言：DeLiGAN是計算機視覺頂會CVPR2017發表的一篇論文，本文將結合Python原始碼學習DeLiGAN中的核心內容。DeLiGAN最大的貢獻就是將生成對抗網路（GANs）的輸入潛空間編碼為混合模型（高斯混合模型），從而使得生成對抗網路（GANs）在數量有限但具有多樣性的訓練資料上表現出較

[ECCV 2018筆記] Learning Class Prototypes via Structure Alignment for Zero-Shot Recognition

Abstract Zero-shot learning (ZSL) aims to recognize objects of novel classes without any training samples of specific classes, whic

[CVPR 18] Discriminative Learning of Latent Features for Zero-Shot Recognition

本文亮點：對人類定義屬性進行擴充，學習隱含屬性。 ZSL 零樣本學習(zero-shot learning, ZSL)詳見鄭哲東在知乎中的回答。它的目標是通過訓練階段從已見類別中學習到的知識，來識別未見類別。 Abstract 摘要：零樣本學習（ZSL）

Semantic Autoencoder for Zero-Shot learning閱讀筆記CVPR2017收錄

論文地址：https://arxiv.org/pdf/1704.08345.pdf 程式碼地址：https://elyorcv.github.io/projects/sae 該論文已經被CVPR201

目標檢測“Perceptual Generative Adversarial Networks for Small Object Detection”

解決小目標檢測問題的一般方法：提高輸入影象的解析度，會增加運算量；多尺度特徵表示，結果不可控。方法提出論文使用感知生成式對抗網路（Perceptual GAN）提高小物體檢測率，generator將小物體的poor表示轉換成super-resolved的

Matching Networks for One Shot Learning論文分析

Matching Networks for One Shot Learning Abstract 研究領域： One Shot Learning（小樣本學習）從少量樣本中快速學習，是傳統監督學習和Deep Learning無法解決的問題，該研究領域被稱為小樣本學

深度學習論文翻譯解析（五）：Siamese Neural Networks for One-shot Image Recognition

論文標題：Siamese Neural Networks for One-shot Image Recognition 論文作者： Gregory Koch Richard Zemel Ruslan Salakhutdinov 論文地址：https://www.cs.cmu.edu/~rsala

《Learning to Compare: Relation Network for Few-Shot Learning》論文閱讀

通過對比實現少樣本或零樣本學習Learning to Compare: Relation Network for Few-Shot Learning 動機我們就發現了，我們人之所以能夠識別一個新的東西，在於我們人的視覺系統天生的能夠對任意物體提取特徵，並進行比

《AppIntent - Analyzing Sensitive Data Transmission in Android for Privacy Leakage Detection》論文閱讀筆記

AppIntent: Analyzing Sensitive Data Transmission in Android for Privacy Leakage Detection APPIntent:分析敏感資料傳播在Android裝置中隱私洩露的檢測文獻引

4-Points Congruent Sets for Robust Pairwise Surface Registration——4PCS閱讀筆記

4-Points Congruent Sets for Robust Pairwise Surface Registration——4PCS閱讀筆記 2018年03月08日 10:18:14 Vodake 閱讀數：1254 標籤：點雲配準計算機視覺

Deep Learning for Generic Object Detection: A Survey 閱讀筆記

目錄摘要 1.介紹 2.背景 2.1問題 3.框架摘要目標監測旨在從自然影象中定位出大量預定義類別的例項物件，是機器視覺中最基本也是最具挑戰的問題。近年來，深度學習技術作為直接從資料學習特徵表示的強

Decoupled Learning for Conditional Adversarial Networks

文章提出裡在已有的ED+GAN的基礎上,添見一個生成網路,即ED//GAN,網路結構如下, 上圖中左邊為傳統的GAN網路,Enc+Dec相當於生成網路,D為判別網路,構造GAN損失函式,以及生成圖片與輸入的重構誤差(L1損失函式,這種網路結構我們熟悉的有pix2pix,cycl

Training Shallow and Thin Networks for Acceleration via KD with Conditional Adversarial Networks

這是2017年的一篇文章。在本文之前的監督學習的方法一般是通過最小化確定的損失函式來擬合學生和老師，本文通過cGANs來學習適合的loss，更好的進行知識的遷移。其訓練過程如下： Discriminator的更新過程如下：但Discriminator只使

【論文閱讀】Learning Dual Convolutional Neural Networks for Low-Level Vision

論文閱讀（【CVPR2018】Jinshan Pan - Learning Dual Convolutional Neural Networks for Low-Level Vision）本文針對低層視覺問題，提出了一般性的用於解決低層視覺問題的對偶卷積神經網路。作者認為，低層視覺問題，如常見的有

【論文解析】Single-Shot Bidirectional Pyramid Networks for High-Quality Object Detection

論文地址 AAAI 2018的文章，和Cascade R-CNN一樣，注意到了IoU閾值的設定對目標檢測的影響，但是這篇論文的網路設計比Cascade R-CNN複雜多了。本文提出的Bidirectional Pyramid Networks(BPN)主要有兩個模組：（1）a Bidire

論文筆記：Spectral Normalization for Generative Adversarial Networks [ICLR2018 oral]

Spectral Normalization for Generative Adversarial Networks 原文連結：傳送門一篇純數學類文章，有興趣的時候再看！ Emma CUH

【論文筆記】An Intelligent Fault Diagnosis Method Using: Multivariate Anomaly Detection for Time Series Data with Generative Adversarial Networks

ivar 單位矩陣作用一次一個 http example tps 計算論文來源：IEEE TRANSACTIONS ON INDUSTRIAL ELECTRONICS 2016年的文章，SCI1區，提出了兩階段的算法。第一個階段使用Sparse filtering

Dual Adversarial Networks for Zero-shot Cross-media Retrieval 閱讀筆記

introduction

related work

approach

Experiments

相關推薦