Weakly Supervised Open-set Domain Adaptation by Dual-domain Collaboration筆記
Weakly Supervised Open-set Domain Adaptation by Dual-domain Collaboration筆記
目錄方法概述
在現實世界中,經常存在這樣的應用場景:兩個領域都只有部分已標註的樣本,而且這兩個領域之間並非共享所有的類別。因此,在開放集的設定下,讓部分已標註的領域相互學習,並進行每個領域中所有未標註樣本的分類是有實際意義的。
Shuhan Tan等人於2019年將上述應用場景中的設定引入開集域適應,提出弱監督開集域適應問題
解決弱監督開放集域適應問題的一個關鍵挑戰是當兩個域中都只存在少量已標註的樣本時要如何進行域適應。為了應對這一挑戰,協作分佈對齊開集域適應使用了一種新的雙重對映方法來學習每個域特定的特徵變換,進而迭代地將兩個域的特徵空間對映到一個共享的潛在空間。為了減輕目標域私有標籤空間中樣本的影響,在雙重對映的優化過程中,該方法最大化共享標籤空間和私有標籤空間中樣本的邊界,同時最小化特徵分佈差異和類內變化。此外,為了提高對屬於私有標籤空間的樣本的分辨能力,該方法對未標註的樣本進行偽標籤預測來擴大標籤集
該方法的主要貢獻在於:
1.提出弱監督開放集域適應的設定,它允許只存在部分已標註樣本的兩個域之間通過相互學習對未標註的樣本進行標註。此設定將域適應的限制擴充套件到缺少理想源域的情況。
2.提出協作分佈對齊的方法來解決所提出的問題,該方法能夠較好地處理由弱監督和開放集設定而引入的挑戰。
方法流程
協作分佈對齊的方法假設有源域\(D_s\)和目標域\(D_t\),它們都只有部分已標註的樣本,而且源域中未標註樣本所對應的類別可能並不在源域的標籤空間中而是在目標域的標籤空間中,所以該方法將源域與目標域的標籤集\(C_s,C_T\)
該方法流程如圖5-2-2-6所示,在(a)中,已標註的樣本用實心圖形表示,未標註的樣本用空心圖形表示。不同類別的樣本分別由圓形、三角形、矩形和菱形來表示,其中圓形表示私有標籤空間的樣本。
在(b)中,為一些未標註的樣本分配偽標籤,同時分離屬於私有標籤空間的樣本。其中分配的偽標籤由圖中空心圖形中的實心圖形表示。
在(c)中,學習一組特定於兩個域的對映,這些對映將樣本變換到一個潛在的領域中,減少了域間差異,聚集屬於同一類別的樣本,從而形成共享標籤空間樣本和私有標籤空間樣本間的邊界。然後,使用變換後的特徵來更新(b)中的偽標籤,並在(b)和(c)之間迭代,直到收斂。
最後,在(d)所示的潛在空間中,使用分類器來標註所有未標註的樣本。
偽標籤分配
為了擴大標籤集,該方法通過迭代優化的方法在\(C_L\)上訓練分類器來生成源域與目標域中未標註樣本集\(U_s\)與\(U_t\)的偽標籤。首先為\(U_s,U_t\)中的樣本分配偽標籤,之後使用估計的偽標籤和已標註的樣本來優化更新偽標籤,再使用更新後的標籤開始新的迭代,直到最後收斂。但是由於域間差異的存在,其中的一些偽標籤是不準確的,這將導致最終的預測錯誤。為了避免錯誤的迭代傳播,在優化偽標籤的過程中需要判斷標籤的準確性,以消除不正確的標籤。
由於之前在\(C_L\)上訓練的分類器已經獲得了每個樣本的概率分佈估計,該方法提出利用資訊熵H來估計每個樣本預測的準確性。H較高,表示樣本預測為各個類別的概率相差不大,說明這個預測更有可能是錯誤的。\(x_i\)為第i個樣本,C為類別總數,\(Y_{ij}\)表示\(x_i\)屬於類別j的概率,則資訊熵的定義為。當\(H(x_i)\ge \gamma\)時,該樣本就會被認為屬於私有標籤空間而不再參加雙重對映,\(\gamma\)是一個自適應閾值,它的取值是所有樣本資訊熵的均值。
雙重對映
雙重對映,即通過分別學習源域和目標域的變換矩陣\(W_s\)與\(W_t\)來更好地利用這兩個領域的特定資訊,將\(D_s\)和\(D_t\)對映到共享的潛在空間中。由於這兩個領域在該問題中扮演的角色是平等的,所以使用雙重對映來學習領域間的特定變換對於解決弱監督開集域適應問題來說更加靈活。
開集的設定下的主要任務是檢測和分離屬於私有標籤空間的樣本。如果共享標籤空間的樣本和私有標籤空間的樣本之間沒有很好地分離,那麼二者的重疊可能會導致共享標籤空間的樣本被錯誤地分類到私有標籤空間中,或者私有標籤空間中的樣本被分類到共享標籤空間中。這將顯著降低總體效能。為了使得二者更好的分離,該方法要求:與任何私有標籤空間中的樣本相比,每個共享標籤空間中的樣本要儘量接近其所屬的類別中心。
對於每個共享標籤空間中的樣本,定義距離該樣本x最近的屬於私有標籤空間中樣本\(x_u\)的距離為:其中D表示該樣本x所在的域(源域或者目標域),\(D'\)表示\(x_u\)所屬的領域,W表示所在域的對映;定義該樣本x距離它所屬類別中心\(\overline{x}^c_D\)的距離為:
將\(C_K\)作為共享標籤空間中的類別集合,\(x^c_D\)作為D域中屬於類別C的樣本,則定義屬於私有標籤空間的樣本從共享標籤空間中分離的損失\(U_D\)為:
則源域與目標域的總損失為:
在最小化損失U,將屬於私有標籤空間的樣本成功分離之後,還要將所有共享標籤空間中的樣本分佈進行對齊,以獲得更好的分類效能。為此,該方法計算變換後兩區域邊緣分佈間的距離為
其中表示D域共享標籤空間中的樣本特徵的均值,\(n^k_D\)表示這些樣本的個數。
同樣,兩區域條件分佈間的距離Distc可以用兩個域共享標籤空間中對應類別的中心間距離之和來度量。它被定義為其中表示D域中的類別c中的樣本特徵的均值,\(x^{c,i}_D\)表示D域中類別c的第i個引數。
該方法通過最小化Distm與Distc來減小兩個域的共享標籤空間中的樣本在邊緣分佈和條件分佈的差異,完成共享標籤空間中樣本分佈的對齊
。
為了便於進行私有標籤空間樣本的分離和共享標籤空間中樣本分佈的對齊,該方法還通過定義損失\(G_D\)來將所有樣本集合到它們各自所屬的類別中心:
則兩個域的總損失為:
通過最小化損失G,屬於同一個類別的樣本最終被聚集到一起。
結合上面討論的所有部分,便可以給出總的目標函式。為了平衡方法中的各個部分,目標函式中還分別引入了針對私有標籤空間樣本分離、共享標籤空間樣本分佈對齊和類別中心聚集的平衡引數\(\lambda_U,\lambda_M,\lambda_G\),方法總損失函式定義為
方法總的目標函式為
效能分析
協作分佈對齊開集域適應方法中,作者在Office-31資料集中隨機選取15個類別作為共享類別,剩餘的16類做為兩個域的私有類別。源域與目標域分別隨機選取10個類別作為私有類別的已標註資料,但二者共享其中的 5個類別。除了也使用之前的方法一與方法二作為實驗的基線,該方法還使用了TCA[26]、GFK[27]、CORAL[28]等方法作為對比。由於該方法使用的是雙向預測,對於基線中那些只需要進行單個領域標註工作的方法,為了公平起見,要使用不同來源的資料正反進行兩次來與該方法進行對比。實驗的結果如圖5-2-3-11所示,可見該方法的識別精度較方法一、方法二又有了進一步的提升。
此外,在該方法的消融實驗中,作者還探究了模型的各個部分對方法的影響,結果如圖5-2-3-12所示。