1. 程式人生 > >訓練過程--關於訓練資料與標籤的trick

訓練過程--關於訓練資料與標籤的trick

Label Shuffling平衡策略

  在去年冠軍土堆的Class-Aware Sampling方法的啟發下,海康威視提出了Label Shuffling的類別平衡策略。
  Label Shuffling方法的優點在於,只需要原始影象列表,所有操作都是在記憶體中線上完成,非常易於實現。hard-data-mining。

  DL 產生較為嚴重的誤差原因大概是,lable 其實正負數對半,但模型的輸出幾乎都是正,即使是負數,該預測值的數值也非常少,並沒有找到合適的解決方法。

具體步驟

在這裡插入圖片描述
  1)首先對原始影象列表按照標籤順序進行排序。
  2)然後計算每個類別的樣本數,並且得到樣本最多的那個類別的樣本數,根據這個最多的樣本數,對每一類隨機產生一個隨機排列的列表。
  3)然後用每個類別的列表中的數對各自類別的樣本數求餘,得到一個索引值,從該類的影象中提取影象,生成該類的影象隨機列表;
  4)然後把所有類別的隨機列表連在一起,做個Random Shuffling,得到最後的影象列表,用這個列表進行訓練。


標籤不足的情況

  這種情況下,使用的很多方法都在pretrain範疇,但不一定是SAE,DBN這種。


難分樣本挖掘(hard example mining)

  將難分樣本挖掘(hard example mining)機制嵌入到SGD演算法中,使得在訓練的過程中根據region proposal的損失自動選取合適的region proposal作為正負例訓練。最終提高精度。


使用對抗樣本進行訓練

  神經網路很容易被對抗樣本戲弄。一個金魚圖片本來可以分類正確。但是,如果我們加入中間圖片的噪音模式,則分類器認為這是一張雛菊的圖片。

解決

  顯然,多掃視後投票和無監督預訓練的策略都不能解決這個漏洞。
  使用高度正則化會有所幫助,但會影響判斷不含噪聲影象的準確性。
  Ian Goodfellow提出了訓練這些對抗樣本的理念。它們可以自動的生成並新增到訓練集中。結果表明,除了對對抗樣本有所幫助之外,這也提高了原始樣本上的準確性。