SIMILAR:現實場景中基於子模組資訊度量的主動學習
在過去幾年中,主動學習 (AL) 策略已被證明可用於降低標籤成本。但是當涉及現實世界的資料集時,當前的方法效果並不理想,現實世界的些資料集存在缺陷和許多特徵,使得從中學習具有更大挑戰性:
真實世界的資料集場景:(a) 稀有類:數字 5 和 8 很少見;(b) 冗餘:數字 0 和 1 是冗餘的;© 分佈外 (OOD):數字分類中的字母 A、R、B、F。
首先,現實世界的資料集是不平衡的有些類別非常罕見。這種不平衡的一些例子來自醫學成像領域;例如,在癌症成像資料集中,癌細胞的影象通常比它們的良性對應物更罕見。另一個例子是在自動駕駛汽車領域,我們希望準確地檢測所有物體。但是由於某些情況下的某些物件是罕見的,像下圖中黑暗中的行人,一般模型經常無法檢測和分類稀有類別。
其次,現實世界的資料有很多冗餘。這種冗餘在通過從視訊中取樣幀建立的資料集中更為突出(高速公路上行駛的汽車的鏡頭或監控攝像頭的鏡頭)。
第三,有分佈外(OOD)資料是很常見的,其中一些未標記的資料與手頭的任務無關。例如,在醫學成像領域,資料集中的一些x射線影象並不是正常獲取得到的資料,從而導致分佈不均勻。
該論文的工作是解決以下問題:
是否可以有適用於廣泛現實場景的單一併且統一的主動學習框架來訓練機器學習模型?
論文提出了SIMILAR(一個統一的主動學習框架),並且說可以作為前面討論的許多現實場景的一站式解決方案。該框架的主要思想是通過適當選擇一個查詢集Q和一個私有集p,利用子模組資訊測量度(SIM:submodular information measures)之間的關係,論文中說其統一性來自於子模組條件互資訊(SCMI:submodular conditional mutual informatio)豐富的建模能力。我們從SCMI中得到了子模組互資訊(SMI:submodular mutual informatio)和子模組條件增益(SCG:submodular conditional gain)公式,並將它們應用於不同的現實場景中。
完整文章:https://www.overfit.cn/post/c65a3ab6a27640119a661167f13395fc