1. 程式人生 > 其它 >半監督學習文獻閱讀

半監督學習文獻閱讀

一、半監督學習的基本思想


半監督學習的核心思想是利用隱藏在大量無標籤樣本中的資料分佈資訊來提升僅使用少量有標籤樣本時的學習效能。突破了傳統方法只考慮一種樣本型別的侷限,綜合利用有標籤與無標籤樣本。

其優勢在於,隨著大資料時代的來臨,資料庫中的資料呈現指數增長,獲取大量無標記樣本相當容易,而獲取大量有標記樣本則困難得多,且人工標註需要耗費大量的人力和物力。同時很多工很難獲得如全部真實標籤這樣的強監督資訊。而如果只使用少量的有標記樣本進行訓練,往往導致學習器泛化效能低下,且浪費大量的無標記樣本資料資源。半監督學習在少量樣本標籤的引導下,能夠充分利用大量無標籤樣本提高學習效能,避免了資料資源的浪費,同時解決了有標籤樣本較少時監督學習方法泛化能力不強和缺少樣本標籤引導時無監督學習方法不準確的問題。

二、結合前面所學知識簡述半監督學習有哪些策略

1、半監督分類 

是在無類標籤的樣例的幫助下訓練有類標籤的樣本,獲得比只用有類標籤的樣本訓練得到的分類器效能更優的分類器,彌補有類標籤的樣本不足的缺陷,其中類標籤取有限離散值。

、半監督迴歸 

半監督分類主要分為協同訓練的半監督迴歸和基於流形的半監督迴歸兩類

協同訓練主要基於三個假設:

(1)資料集的每個示例都可以分為兩個不完全相關的不同檢視, 這意味著可以使用兩種不同型別的資訊來描述每個例項(冗餘檢視假設)。

(2)每個檢視都可以有效地用於分類(相容性假設)。

(3)這些檢視在給定類標籤的情況下是條件獨立的(獨立性假設). 在這種情況下, 使用標記示例在每個檢視中分別訓練兩個分類器, 並且使用每個演算法對未標記資料的最自信的預測結果來增強另一個的訓練集。

個人理解:可以近似看為監督學習與非監督學習的疊加

基於流形的半監督迴歸:

流形假設(Manifold Assumption):將高維資料嵌入到低維流形中,當兩個樣例位於低維流形中的一個小區域性鄰域內時,它們具有相似的類標籤。

流形假設的主要思想是同一個區域性鄰域內的樣本資料具有相似的性質,因此其標記也應該是相似。這一假設體現了決策函式的區域性平滑性。


3、半監督聚類 

監督學習利用的監督資訊是樣本的類別標籤,非監督學習利用的監督資訊是樣本的成對約束關係。在實際應用中,監督資訊會以樣本標籤和成對約束資訊並存的情況,若只利用標籤資訊或將標籤資訊轉化為成對約束資訊時,會削弱監督資訊或利用不充分。而半監督聚類的方法,如SC-Kmeans 演算法綜合利用 Seeds 集和成對約束集引入到 Kmeans 中指導聚類過程,即同時利用樣本標籤和成對約束資訊來進行聚類。


4、半監督降維 

在有類標籤的樣本的資訊幫助下找到高維輸入資料的低維結構,同時保持原始高維資料和成對約束(Pair-Wise Constraints)的結構不變,即在高維空間中滿足正約束(Must-Link Constraints)的樣例在低維空間中相距很近,在高維空間中滿足負約束(Cannot-Link Constraints)的樣例在低維空間中距離很遠。

三、結合本專業所學知識簡述半監督學習的可能應用及其優點

1、在遙感影象識別分類中的應用

在遙感影象的語義分割等任務中,大規模遙感樣本集的構建費時費力,同時在實際的遙感地物分類中,可用的高質量樣本數量總是較少的,且高質量的樣本往往較細碎,因此稀疏樣本是遙感影象分類面臨的一個重要問題。而半監督學習由於同時考慮了有限的標籤樣本和海量的無標籤樣本,可以解決遙感分類中的樣本不平衡問題,由此還可以緩解因稀疏樣本造成的遙感分類模型的過擬合問題。

個人感想:

樣本不平衡問題,廣泛存在於所有監督學習的分類問題中。關於這個問題的具體定義:資料集中,每個類別下的樣本數目相差很大(數量級上的差距)。樣本不平衡問題的可怕之處在於,往往模型的引數,訓練,資料,特徵都是正確的,但準確率仍然很低。在機器學習中,可採用擴大資料集, 資料集重取樣,人工產生資料樣本等方法解決樣本不平衡問題。在深度學習任務中,可以通過使用Focal Loss來解決此類問題。而半監督學習由於同時考慮了有限的標籤樣本和海量的無標籤樣本,是解決遙感分類中的樣本不平衡問題的一個途徑。

半監督學習的結果不能簡單的直接使用監督學習的指標來評價。因為大部分情況下驗證集資料的選取其實都是來源於最初的有標籤的資料,所以訓練集的問題,驗證集一般同樣存在,比如,量過少(缺乏代表性,具有偶然性),分佈不均衡。這樣的話,使用驗證集來評價半監督學習的結果本身是存在問題的。個人覺得半監督學習結果的難以評估也是制約其發展的一個重要原因。