1. 程式人生 > 其它 >計算機視覺的半監督模型:Noisy student, π-Model和Temporal Ensembling

計算機視覺的半監督模型:Noisy student, π-Model和Temporal Ensembling

今天我將討論一些在過去十年中出現的主要的半監督學習模型。首先讓我們談談什麼是半監督學習以及我們為什麼對它感興趣!

假設我們有一個大的標記影象資料集。我們想使用這些資料來構建一個模型,進行影象分類的任務,解決這個問題的標準方法是構建卷積神經網路 (CNN)。CNN 已被證明在使用大型資料集進行訓練時可以提供最先進的結果。

下面就是一個非常重要的問題,如果我們沒有大型標記資料集怎麼辦?例如我們工作中的分類與現在的預訓練的資料集例如imagenet沒有交集,或者說我們處理的具體的領域沒有大量公共標記資料。這樣,我們標記資料通常就需是手工完成的——但這個過程很昂貴,而且也很耗時。

這就是半監督的優勢,我們正在構建一個生成標籤作為輸出的模型,但是如果我們不需要人工手動標記所有資料,而是隻需要標記其中的一小部分,然後將其留給模型來確定其餘的標籤應該是什麼,這樣可以嗎?事實證明,這個想法非常有效,並且多年來已經開發了許多類似的方案。我們今天要討論的方案是Noisy student, π-Model,和Temporal Ensembling

Noisy Student Model

Noisy Student是2019 年由 Xie 等人提出的 。該模型的工作原理如下:

首先,在手動標記的影象子集上訓練“教師”模型。論文中描述的教師模型使用了 EfficientNet 架構。教師模型經過最小化交叉熵損失進行訓練,並用於為每個未標記的影象推斷“偽標籤”。這些偽標籤可以是軟標籤或硬標籤的形式儲存。(軟標籤表示為連續分佈,而硬標籤是獨熱編碼)。

接下來,使用手動標記和偽標記資料訓練“學生”模型。通過資料增強(特別是 RandAugment)用於向輸入新增噪聲;dropout 和stochastic depth用於向模。

完整文章:

https://www.overfit.cn/post/c292cf69a9194b859c0d0b51be96ce88