1. 程式人生 > 實用技巧 >論文閱讀筆記《Deep Active Learning for Civil Infrastructure Defect Detection and Classification》

論文閱讀筆記《Deep Active Learning for Civil Infrastructure Defect Detection and Classification》

小樣本學習&元學習經典論文整理||持續更新

核心思想

  本文提出一種基於主動學習的民用設施缺陷檢測方法,其思路主要是考慮到在樣本較少的情況下,訓練得到的網路可能不能很好的對各種型別的缺陷都進行準確的檢測,但它仍然具備對於大部分簡單缺陷的識別能力。如果讓人類專家對所有的樣本影象都進行人工標記,那無疑是工作量龐大的,但如果只對部分網路識別困難或者網路不太確定的樣本進行人工標記,然後作為新的訓練樣本對網路進行重訓練,這樣就能不斷提高網路的識別能力了,本文演算法的流程如下圖所示
在這裡插入圖片描述
  首先,深度學習網路利用部分帶有標記的樣本進行訓練得到一個初始的分類器。然後將新的資料樣本輸入到訓練好的網路中進行類別預測,根據預測的概率值,選擇出困難樣本,提供給人類專家進行人工標記,將重新標記的樣本補充到訓練集中,再次對網路進行重訓練。

  對於原始影象,作者採用滑動視窗的方式劃分成多個512 * 512大小的圖塊,然後將圖塊輸入到網路中進行類別預測,輸出結果大於0.5時表示該圖塊內包含缺陷,結果小於0.5時則表示圖塊內不含缺陷。再對困難樣本進行取樣時,作者提出了兩種取樣策略:基於不確定性的取樣方法和基於正向樣本的取樣方法。網路輸出的數值其實表示了該圖塊內包含缺陷的概率,當概率值非常接近1或0時,說明網路非常確定該圖塊是否包含缺陷,而當概率值在0.5左右時,說明網路並不確定圖塊中是否包含缺陷,基於這個不確定性,可以選擇那些預測概率在0.5附近的樣本作為困難樣本。另一種方法是考慮到現實情況下正向樣本(帶有缺陷)的數量是遠少於負向樣本(不帶缺陷)的,因此可以根據網路輸出的概率值從大到小進行排序,選擇前面幾個認為存在缺陷概率較大的樣本作為困難樣本。

實現過程

網路結構

  網路主體部分採用了ResNet網路,具體結構引數如下
在這裡插入圖片描述

損失函式

  採用了加權交叉熵損失函式,權重是根據正向樣本和負向樣本的比例設定的,預測為正向樣本的損失權重是負向樣本佔總樣本數的比例,同理預測為負向樣本的損失權重是正向樣本佔總樣本數的比例。

創新點

  • 採用主動學習的思路來解決缺陷檢測中帶有標籤樣本缺乏的問題,並提出了兩種困難樣本的取樣方式
  • 採用加權損失函式緩解樣本不平衡的問題,權重計算是根據樣本數量所佔比重而定的

演算法評價

  主動學習我認為是解決實際缺陷檢測問題的一個重要途徑,這就類似與我們去培訓一個技術工人,一開始的初步學習固然很重要,但很多情況下工人是在生產過程中逐步提升自己的能力的。主動學習就類似與一個逐步學習的過程,在遇到新的樣本時,對於不確定的樣本詢問人類專家獲取正確標籤,這樣也不需要人類專家對所有的樣本都進行標記了。但這裡需要解決許多工程問題,首先人類專家不會時時刻刻等待模型的詢問,也就是說如果是在實際生產過程中,模型初期可能會出現許多的誤判,但必須要等待一批樣本處理結束才能交給人類專家進行標記和重訓練。其次,通常模型在部署下去之後是不具備訓練的能力的,這裡就需要解決一個線上訓練的問題。

如果大家對於深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公眾號“深視”。在這裡插入圖片描述