Matching Networks for One Shot Learning論文分析

阿新 • • 發佈：2019-02-08

Matching Networks for One Shot Learning

Abstract

研究領域： One Shot Learning（小樣本學習）從少量樣本中快速學習，是傳統監督學習和Deep Learning無法解決的問題，該研究領域被稱為小樣本學習。

創新：
以下兩種方法結合：

metric learning目前，小樣本學習的主流方法
external memories以前小樣本學習的主流方法

資料集： Omniglot & ImageNet

1. Introduction

人類可以從少量樣本中學習新的概念。比如：一個小朋友看到鄰居家的新玩具一次，下次跟媽媽去商場的時候馬上就能從貨架上認出它來。

現在Deep Learning仍然需要大資料的驅動。
一些non-parametric model可以快速學習新樣本，比如KNN。本文要融合parametric model（即DL）和non-parametric model。DL中的樣本是用完即棄的，而KNN中的樣本會被儲存。
本文還為在Omniglot & ImageNet上的One Shot Learning實驗設定了benchmark。

2. Model

2.1 Model Architecture

Matching Net architecture

在網路上加external memories。
external memories有很多種。在seq2seq中，external memories用於對 $P(B|A),\ where\ A\ and\ B\ can\ be\ a\ sequence$ 的建模。在本文的Matching Net中，也用這種方式，只不過這裡的 $A,\ B$ 是一個set。如上圖所示，網路的輸入是有多個圖片組成的set。
數學建模部分。這裡比較複雜，我會講的詳細一點。

從上圖可以看到，左邊4個圖片形成一組，稱為support set；右下1個單身狗，稱為test example。全部5個圖片稱為1個task。

該模型用函式可表示為 $p r e d i c$

tion=f(support_set,test_example)prediction = f(support\_set,\ test\_example)

p r e d i c t i o n = f (s u p p o r t_s e t, t e s t_e x a m p l e)

，即模型有兩個輸入。該模型用概率可表示為

P(\hat y|\hat x, S)

，其中

S = \{(x_i, y_i)\}_{i=1}^k

，k表示support set中樣本的個數。上圖support set有4個圖片，k=4。

Matching Net作者把該模型表示為：
$\hat y = \sum_{i=1}^k a(\hat x, x_i) y_i$

預測值 $\hat y$ 被看做是support set中樣本的labels的線性組合，組合的權重是test example和support set中1個樣本的關係—— $a(\hat x, x_i)$ 。

將 $a(\hat x, x_i)$ 作為一個核函式，則該模型可近似為：Deep Learning做嵌入層，KDE做分類層。
將 $a(\hat x, x_i)$ 作為一個01函式，則該模型可金思維：Deep Learning做嵌入層，KNN做分類層。

2.1.1 The Attention Kernel

本文賦予 $a(\hat x, x_i)$ 新的形式——將它看做attention kernel。此時，模型的預測結果就是support set中attention最多的圖片的label。

常見的attention kernel是cosine距離上的softmax：
$a(\hat x, x_i) = \frac {e^{c(f(\hat x), g(x_i))}}{\sum_{j=1}^k e^{c(f(\hat x), g(x_j))}}$ ，其中 $f, g$ 是兩個嵌入函式（可由神經網路實現，如：VGG or Inception）。

2.1.2 Full Context Embeddings

嵌入向量 $emb\_x_i = g(x_i) \leftarrow g(x_i, S)$ ，嵌入函式的輸出同時由對應的 $x_i$ 和整個support set有關。support set是每次隨機選取的，嵌入函式同時考慮support set和 $x_i$ 可以消除隨機選擇造成的差異性。類似機器翻譯中word和context的關係， $S$ 可以看做是 $x_i$ 的context，所以本文在嵌入函式中用到了LSTM。

對text example的嵌入函式為 $f$ :
$f(\hat x, S) = \textbf{attLSTM}(f'(\hat x), g(S), K)$ ，其中 $f'(\hat x)$ 是CNN嵌入層的輸出，可以是VGG或Inception， $g(S)$ 是support set中樣本的嵌入函式輸出，K是LSTM層的timesteps，等於support set的圖片個數。

詳解full context embedding：

The Fully Conditional Embedding f

$\hat h_k, c_k = LSTM(f'(\hat x), [h_{k-1}, r_{k-1}], c_{k-1})$

$h_k = \hat h_k + f'(\hat x)$

$r_{k-1} = \sum_{i=1}^{|S|} a(h_{k-1}, g(x_i))g(x_i)$

$a(h_{k-1}, g(x_i)) = softmax(h_{k-1}^Tg(x_i))$

The Fully Conditional Embedding g

support set中的 $x_i$ 在經過多層卷積網路後，在經過一層bidirectional LSTM。

2. 2Training Strategy

一個batch包括多個task；
一個task包括一個support set和一個test example；
一個support set包括多個sample（image & label）；
support set中有且只有一個樣本與test example同類。

Related Work

Memory Augumented Neural Networks attention機制
Metric Learning 比較學習

Matching Networks for One Shot Learning論文分析

Matching Networks for One Shot Learning Abstract 研究領域： One Shot Learning（小樣本學習）從少量樣本中快速學習，是傳統監督學習和Deep Learning無法解決的問題，該研究領域被稱為小樣本學

【論文閱讀】Siamese Neural Networks for One-shot Image Recognition

關鍵詞： one-short learning : 待解決的問題只有少量的標註資料，先驗知識很匱乏，遷移學習就屬於one-short learning的一種 zero-short learning: 這個種情況下完全沒有

深度學習論文翻譯解析（五）：Siamese Neural Networks for One-shot Image Recognition

論文標題：Siamese Neural Networks for One-shot Image Recognition 論文作者： Gregory Koch Richard Zemel Ruslan Salakhutdinov 論文地址：https://www.cs.cmu.edu/~rsala

《Learning to Compare: Relation Network for Few-Shot Learning》論文閱讀

通過對比實現少樣本或零樣本學習Learning to Compare: Relation Network for Few-Shot Learning 動機我們就發現了，我們人之所以能夠識別一個新的東西，在於我們人的視覺系統天生的能夠對任意物體提取特徵，並進行比

人臉識別如何做到one-shot learning？(轉)

兩個演示照片我們 round detail ack 命名技術來源：http://blog.csdn.net/ice_actor/article/details/78603042 1.什麽是人臉識別 ??這部分演示了百度總部大樓的人臉識別系統，員工刷臉進出辦公區，在

[DeeplearningAI筆記]卷積神經網絡4.1-4.5 人臉識別/one-shot learning/Siamase網絡/Triplet損失/將面部識別轉化為二分類問題

卷積三元兩個輸出 cti 輸入數學 bubuko 人的 4.4特殊應用:人臉識別和神經網絡風格轉換覺得有用的話,歡迎一起討論相互學習~Follow Me 4.1什麽是人臉識別 Face verification人臉驗證 VS face recognition人臉識

Zero-shot Learning / One-shot Learning / Few-shot Learning

在遷移學習中，由於傳統深度學習的學習能力弱，往往需要海量資料和反覆訓練才能修得泛化神功。為了 “多快好省” 地通往煉丹之路，煉丹師們開始研究 Zero-shot Learning / One-shot Learning / Few-shot Learning。

【Network Architecture】Feature Pyramid Networks for Object Detection(FPN)論文解析（轉）

目錄 0. 前言 1. 部落格一 2.。部落格二 0. 前言這篇論文提出了一種新的特徵融合方式來解決多尺度問題，感覺挺有創新性的，如果需要與其他網路進行拼接，還是需要再回到原文看一下細節。這裡轉了兩篇比較好的部落格作為備忘。 1. 部落格一這篇論文是CVPR20

《Character-level convolutional networks for text classification》論文網路結構解讀

1.資料比如有一條資料【x=“Simultaneous Tropical Storms are Very Rare”】.則把該句子的大寫字母全部表示成小寫，構建char字符集的詞彙表如下（這裡詞彙表長度為70（69+1，即其他的不在詞彙表的表示為0））：資料可以表示為x=70X

《Convolutional Neural Networks for Sentence Classification》論文結構解讀

1.資料以某一雙鞋子為例，評論結果作為標籤（2分類：好評，差評）【穿了一段時間，不錯，喜歡的下單吧；好評】【鞋子收到了，不是很滿意。沒有吊牌，一直都是還是隻有我這一雙是；差評】資料處理步驟：把所有評論資料集分詞，去除停用詞，然後構建word2index，然後表示“句子”，以

Dual Adversarial Networks for Zero-shot Cross-media Retrieval 閱讀筆記

Dual Adversarial Networks for Zero-shot Cross-media Retrieval (DANZCR)：由兩個GAN組成，分別用於共同表示生成與原始表示重建，它們捕獲底層資料結構，並加強輸入資料和語義空間之間的關係，以概括已見和未

Semantic Autoencoder for Zero-Shot learning閱讀筆記CVPR2017收錄

論文地址：https://arxiv.org/pdf/1704.08345.pdf 程式碼地址：https://elyorcv.github.io/projects/sae 該論文已經被CVPR201

zero-shot learning 論文三篇小結

what is zero-shot learning zero-shot learning 是為了能夠識別在測試中出現，而在訓練中未遇到過的資料類別。例如識別一張貓的圖片，但在訓練時沒有訓練到貓的圖片和對應貓的標籤。那麼我們可以通過比較這張貓的圖片和我們訓練過

論文筆記 Learning Visual Knowledge Memory Networks for Visual Question Answering （CVPR2018)

這篇文章的一個出發點也是希望VQA裡面的視覺內容與人的結構化知識相聯絡起來，提出了一種visual knowledge memory network (VKMN)來將結構化知識與視覺特徵融合進端對端的學習框架。在經典VQA 資料集VQA v1.0與v2.0上在與知識推理相關的問題

【論文閱讀】Learning Dual Convolutional Neural Networks for Low-Level Vision

論文閱讀（【CVPR2018】Jinshan Pan - Learning Dual Convolutional Neural Networks for Low-Level Vision）本文針對低層視覺問題，提出了一般性的用於解決低層視覺問題的對偶卷積神經網路。作者認為，低層視覺問題，如常見的有

【論文解析】Single-Shot Bidirectional Pyramid Networks for High-Quality Object Detection

論文地址 AAAI 2018的文章，和Cascade R-CNN一樣，注意到了IoU閾值的設定對目標檢測的影響，但是這篇論文的網路設計比Cascade R-CNN複雜多了。本文提出的Bidirectional Pyramid Networks(BPN)主要有兩個模組：（1）a Bidire

【論文閱讀】Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition

【論文閱讀】Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition 這是2017ICCV workshop的一篇文章，這篇文章只是提出了一個3D-ResNets網路，與之前介紹的

論文筆記之Learning Convolutional Neural Networks for Graphs

本篇論文是2016ICML上的一篇論文，對於如何將cnn應用在graph上提供了一種新的思路。架構：總體上講，就是用w個固定size=（k+1）的子圖來表示輸入的graph，再將這w個子圖正

VGGnet論文總結（VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION）

lrn cli 共享融合 loss sca 得到同時 works VGGNet的主要貢獻：　　1、增加了網絡結構的深度　　2、使用了更小的filter（3*3） 1 introduction 這部分主要說明了，由於在所有的卷積網絡上使用了3*3的filter，所以使

外顯子分析彈錯解決方案：Exception in thread "main" picard.PicardException: New reference sequence does not contain a matching contig for NC_007605

clear except -c 解決 als index false quest div 最近從公共數據庫下載了一堆bam文件和reference 基因組文件，重新分析外顯子流程時，跑出了“Exception in thread "main" picard.Pi

Matching Networks for One Shot Learning論文分析

Matching Networks for One Shot Learning

Abstract

1. Introduction

2. Model

2.1 Model Architecture

2.1.1 The Attention Kernel

2.1.2 Full Context Embeddings

The Fully Conditional Embedding f

The Fully Conditional Embedding g

2. 2Training Strategy

Related Work

相關推薦