Data Distillation: Towards Omni-Supervised Learning

阿新 • • 發佈：2018-12-20

Introduction

主要思想是用通過使用一個在大量已標記資料上訓練過的模型在未標記資料上生成annotations，然後再將所有的annotations（已有的或者新生成的）對模型進行重新訓練。作者將其思想同 G. Hinton, O. Vinyals, and J. Dean. 等人的Distilling the knowledge in a neural network. 的model distillation進行了對比

preview

不同於Hinton等人從不同模型的預測中得出結論的思想，作者的方法則是通過對未標記資料的多種形式變換運用於同一個模型之上得出結論。

Data Distillation

資料蒸餾主要包括4步：(1)首先在人工標記的資料上訓練一個模型；(2)將(1)中訓練好的模型運用到各種轉變形式過後的未標記的資料；(3)將(2)中得到的未標記資料轉變成它們通過模型獲得的預測；(4)將人工標記資料和預測資料進行彙總之後，對模型進行訓練。

1）multi-transform inference

比如，對輸入圖片進行multiple crops，或者對不同大小的圖片進行檢測之後彙總目標檢測的結果

2) Generating labels on unlabeled data

很自然地，對於只存在一種形式的資料進行多個模型的訓練和針對多種形式（將一種形式進行變換得到的多種資料）進行單個模型的訓練，後者效果肯定更好。

在多種形式的未標記資料上生成標籤的可行辦法有：用平均分類概率進行標記，這種方法可能存在兩個問題，一是最後得到的標籤可能是一個概率向量，因此我們需要通過調整它的損失函式來適應這種情況的產生，二是對於輸出空間結構化的問題而言，使用平均概率去處理要謹慎。

因此作者採用的方法是生成相同結構的hard labels以及在人工標記的資料中已經出現了的種類。

3) Knowledge distillation

從這一步開始，就採用一個新的模型（可以和之前的模型一樣也可以不一樣）在之前的人工資料以及被預測的資料的集合上進行訓練了，我們把這個模型叫做student model。在這一過程中，主要考慮了兩點，首先是每一個mini-batch，既要包括人工標記的資料也要包括自動標記的資料，第二是，在現在資料量充足的情況下，我們必須延長訓練時間來充分利用這些資料。

Data Distillation for Key Point Detection

1) teacher 和 student model選擇的是Mask R-CNN, Mask R-CNN的backbone選擇的是 ResNet and ResNeXt with FPN

2) 資料變換選擇的是幾何變換，對於資料變換唯一的要求是最後的預測結果要適合ensemble。作者最後採取了兩種常用的資料變換的方法：scaling和水平旋轉。

3)在實驗中，為了簡化，作者只將多種形式變換資料的預測運用到了關鍵部位，比如頭部，其他部位則都來自於沒有進行過任何變換的資料。

4）選擇預測的標準是，選用預測目標得分來代表對預測質量的估計，並且只針對那些大於預測目標得分閾值生成annotation。當每張未標記圖片中平均標記物體大致等於已標記圖片中的平均物體個數。

5）生成關鍵點的annotation，標準同4)中類似。

6)再訓練中保持原始圖片和新生成標籤的圖片的比例為6:4

Experiments on Keypoint Detection

1)測試集為COCO資料集

2)資料分割為三部分，即COCO已標記資料集、COCO未標記資料集以及 Sports-1M static frames

3)主要結果，在三種情況下進行了data distillation實驗，分別是：

a)小規模資料： co-35作為標記資料， co-80作為未標記資料

b)同分布的大規模資料： co-115作為標記資料， un-120作為未標記資料

c)不同分佈的大規模資料：co-115作為標記資料， s1m-180作為未標記資料

接下來這張表展示了結果：

從表(1)的(a)中可以得出，如果所有訓練資料都有標籤，那麼使用所有標籤可以提升半監督學習的準確性。從第二行可以看出，現實世界中總有一些資料是未標記的，因此我們可以追求一個稍微低一點的準確率。除此之外，當資料集較大時，能從未標記資料中獲得的資訊就越少。

表(1)的(b)中比較的是只在co-115同“同分布的大規模資料： co-115作為標記資料， un-120作為未標記資料“的情況，可以看出每個實驗大概提升了1.7至2個百分點。作者同時提到近期另外一個實驗中通過增加一半資料提升了大約3個百分點，因此他們的效果是promising的。

表(1)的(c)中比較的是隻在co-115同“不同分佈的大規模資料：co-115作為標記資料， s1m-180作為未標記資料“的情況，可以看出後面兩張表的表現情況大致相同，因此作者認為他們的方法對於不同分佈的資料具有穩健型。

下面這張圖展示了第三個實驗的具體表現情況：

Ablation Experiments

1)迭代次數

從這張表的第一欄中可以看出，增加迭代次數的確可以在一定程度上提升效果，但是如果不增大資料量的話，可能導致模型傾向於過擬合。

從這張表的第二欄中可以看出，當使用作者的方法時，增加迭代次數提升效果的作用是肯定的。當資料量較小的時候全監督比資料蒸餾方法要好是可以理解的，因為同gt相比，預測的標籤的準確性肯定是不能與之比較的，但是隨後作者方法的優越性就顯現了出來。

2)未標記資料的量

3)the impact of teacher quality

很自然，teacher model的AP越高，student model的AP自然也會更高。

4) test-time augmentation

將資料轉換同樣也實時運用到測試時，同樣可以提升模型表現

目標檢測實驗

小規模資料上的表現情況不是很好，有待研究。

未標記資料在目標檢測上的應用是在是....作者說很challenging.

Data Distillation: Towards Omni-Supervised Learning

Introduction 主要思想是用通過使用一個在大量已標記資料上訓練過的模型在未標記資料上生成annotations，然後再將所有的annotations（已有的或者新生成的）對模型進行重新訓練。作者將其思想同 G. Hinton, O. Vinyals, and J

CS 229 notes Supervised Learning

pmf ocm borde pem clu hex nts blog wid CS 229 notes Supervised Learning 標簽（空格分隔）：監督學習線性代數 Forword the proof of Normal equation and, b

[CVPR2015] Is object localization for free? – Weakly-supervised learning with convolutional neural networks論文筆記

sed pooling was 技術分享 sco 評測 5.0 ict highest p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 15.0px "Helvetica Neue"; color: #323333 } p.p2

深度強化學習cs294 Lecture2: Supervised Learning of behaviors

cs294 Lecture2: Supervised Learning of behaviors Definition of sequential decision problems Terminology & notation

學習筆記之Supervised Learning with scikit-learn | DataCamp

Supervised Learning with scikit-learn | DataCamp https://www.datacamp.com/courses/supervised-learning-with-scikit-learn At the end of day, the value of D

Strong Baselines for Neural Semi-supervised Learning under Domain Shift半監督學習

2018 ACL 論文 Strong Baselines for Neural Semi-supervised Learning under Domain Shift 不同資料集的遷移學習 MT-Tri方法在情感分析上（無監督域適應）超過DANN方法半監督學習結合了監督學習和無監督學

監督學習(Supervised learning)

定義符號 m:訓練樣本的數目 n：特徵的數量 x‘s：輸入變/特徵值 y‘s：輸出變數/目標變數 (x,y)：訓練樣本 ->(x(i),y(i)):訓練集，第i個訓練樣本，i=1,2..,m 監督學習定義：(口頭表達，非正式)我們給學習演算法一個數據集，這個資料集由“正確

機器學習與深度學習系列連載：第一部分機器學習（十三）半監督學習（semi-supervised learning）

在實際資料收集的過程中，帶標籤的資料遠遠少於未帶標籤的資料。我們據需要用帶label 和不帶label的資料一起進行學習，我們稱作半監督學習。 Transductive learning：沒有標籤的資料是測試資料 Inductive learning：沒有標

機器學習之監督學習supervised learning

分類與迴歸監督學習的問題主要有兩種，分別是分類classification和迴歸regression。分類：分類問題的目的是預測類別標籤class label，這些標籤來自預定義的可選列表。迴歸：迴歸任務的目的是預測一個連續值，也叫作浮點數floating-point nu

Supervised learning demo

監督學習案例規範假設函式: 使用h(hypothesis, 假設)表示輸入(input value): x 輸出(output value): y 引數(Parameters): \(\theta\) 房價的Size和Price的預測建立一個線性模型: \(h_\theta(x) = \thet

From Cats to Categories: Processing Geospatial Data with Machine and Deep Learning

With the exponential growth of the number of images (and radar data, and point clouds, and…) that are being collected, we must answer this question: how ar

Dr. Data Show Video: Why Machine Learning Is the Coolest Science

Watch the premiere episode of The Dr. Data Show, which answers the question, "What makes machine learning the coolest science?" This new web series breaks

Songbird data yields new theory for learning sensorimotor skills: Mathematical models describes distribution of sensory errors

During such trial-and-error processes of sensorimotor learning, a bird remembers not just the best possible command, but a whole suite of possibilities, s

Data Distillation: Towards Omni-Supervised Learning

Data Distillation: Towards Omni-Supervised Learning

CS 229 notes Supervised Learning

[CVPR2015] Is object localization for free? – Weakly-supervised learning with convolutional neural networks論文筆記

深度強化學習cs294 Lecture2: Supervised Learning of behaviors

學習筆記之Supervised Learning with scikit-learn | DataCamp

Strong Baselines for Neural Semi-supervised Learning under Domain Shift半監督學習

監督學習(Supervised learning)

機器學習與深度學習系列連載：第一部分機器學習（十三）半監督學習（semi-supervised learning）

機器學習之監督學習supervised learning

Supervised learning demo

From Cats to Categories: Processing Geospatial Data with Machine and Deep Learning

Dr. Data Show Video: Why Machine Learning Is the Coolest Science

Songbird data yields new theory for learning sensorimotor skills: Mathematical models describes distribution of sensory errors

Data Handling using Pandas; Machine Learning in Real Life

supervised learning

【GAN ZOO翻譯系列】Cat GAN：UNSUPERVISED AND SEMI-SUPERVISED LEARNING WITH CATEGORICAL GAN 用於監督和半監督學習的GAN

Self-Supervised Learning for Stereo Matching with Self-Improving Ability

Semi-supervised Learning ;半監督學習

Quick and Dirty Data Analysis for your Machine Learning Problem

CSE 6363 - Machine Learning Homework MLE, MAP, and Basic Supervised Learning

Data Distillation: Towards Omni-Supervised Learning

相關推薦