1. 程式人生 > 實用技巧 >NeurIPS 2020| 重新思考長尾分佈中Label的價值

NeurIPS 2020| 重新思考長尾分佈中Label的價值

NeurIPS 2020| 重新思考長尾分佈中Label的價值

本期分享一篇NeurIPS 2020的一篇關於Imbalance Learning的文章《Rethinking the Value of Labels for Improving Class-Imbalanced Learning》。資料分佈不平衡,即資料呈長尾分佈(long-tailed distributions)。在進行分類任務時,佔比較小的類別往往在模型預測時,錯誤的分類為佔比較大的類別。本文從理論和實踐兩名面重新研究了監督Label的價值,提出了應用未標註資料(unlabeled data)進行半監督學習(semi-supervised)以及無需額外資料,進行自監督學習(self-supervised)預訓練,其訓練結果引數作為常規監督學習網路初始化引數,在large-scale imbalanced benchmarks達到SOTA。

在這裡插入圖片描述
在這裡插入圖片描述

論文地址:paper

程式碼地址:code

從定性視覺化的角度分析來看,如下圖所示,類別之間由於數量的差異,導致分類界限模糊。文中作者從已標註資料的價值的角度進行分析。根據以往經驗,監督學習的結果是優於無監督學習。那麼如何進一步挖掘The Value of Labels並由此提出解決兩個解決方法是文章的核心。
分類界限

1、Abstract

基於現有的研究可知監督學習的結果優於無監督學習,長尾分佈資料導致“標籤偏差”,資料中佔比較多的資料主導了分類邊界的改變。本文研究發現:半監督和自監督學習能夠改善資料不平衡學習的分類效能。

2、Challenges

長尾分佈資料在現實場景中普遍存在,也有諸多的方法的提出以解決該問題。但到底是什麼樣的不同特徵(相對於資料平衡來說)導致了長尾分佈學習的結果?基於現有的研究發現,監督學習結果優於無監督學習。但另一方面,監督學習的的標籤缺進一步加劇了“標籤偏差”,即結果傾向於資料佔比較多的類別。監督學習看似就像一把雙刃劍。

3、Contributions

本文的主要貢獻點:①對imbalanced label 進行了系統的分析和研究;②有監督資訊(即有標註Label)的資料是有價值的。研究發現,給予模型更多不帶標籤的資料進行半監督訓練將減少“標籤偏差”,提升分類模型的效能;③s資料分佈不平衡的標籤資料並不總是有用的。自監督方式訓練的模型優於對應的Baseline。

4、Imbalanced Learning with Unlabeled Data

利用未標註的資料,結合自監督semi-supervised learning (SSL)模型,對資料不平衡分類模型進行優化。

4.1、 Experimental Setup

實驗的設定:①利用original imbalanced dataset(DL),即原始的長尾分佈的帶Label的資料訓練一個分類器;②利用第一步得到的分類器為未標註標籤的資料生成假標籤(pseudo-label);③將兩部分資料DL和DU混合訓練,並在計算loss時,對pseudo-label的資料新增權重w。。

4.2、 Main Results

從結論上看,半監督訓練的結果比直接訓練不平衡資料訓練的結果好!提升約6%~10%。半監督實驗設計(為驗證未標註資料中資料不平衡比例對結果的影響):其中 ,未標註的資料集; ,未標註資料中長尾分佈資料的最大比例; ,表示資料擴增至5倍未標註的資料。
在這裡插入圖片描述

從表(a)中可以看出:
a. 訓練資料中Imbalance Ratio越大,Top-1 test errors越大。即資料不平衡程度越大,錯誤率越高;b. 對於未標註的資料(加入到訓練中),資料不平衡程度越大,錯誤率越高,反之亦然;c. 自監督能夠有效降低Top-1 test errors;d. 資料不平衡程度越大,的提升越大,反之亦然。定性的的視覺化結果如下圖所示。
在這裡插入圖片描述
4.3、 Further Analysis and Ablation Studies

通過選取較新的SSL(Semi-Supervise Learning)model,證實unlabeled data 能夠超越baselines.

5、A Closer Look at Unlabeled Data under Class Imbalance

根據上述實驗以及結論,進一步挖掘SSL的效能,其能否在實際的Imbalanced data中表現出較好的效能呢?對於balanced data,SSL往往表現出“副作用”!SSL往往對unlabeled data與原始資料的相關性非常敏感。並通過實驗進行了驗證,其效能隨著unlabeled data 錯誤分類而逐步下降;錯誤率隨著長尾分佈中資料比例的逐步增加而增大。經過較長篇幅的理論分析,本文引出第二個解決方法:semi-supervised techiques。
在這裡插入圖片描述

5.1 Self-Supervised Imbalanced Learning Framework

利用自監督學習克服固有的監督資訊(label)導致的Bias。即捨棄掉標籤資訊,首先進行自監督預訓練SSP(self-supervised pre-training)。將Imbalance data通過SSP訓練獲取到更優的label-agnositc初始化引數。將學習到的引數用來初始化常規(standard training)的監督學習模型。

在這裡插入圖片描述

在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
想要了解更多關於論文的技術細節,可參考原文及開原始碼!

如果覺得對論文的分析和理解對您有幫助,請關注我的微信公眾號Deep Learning Engine。
在這裡插入圖片描述