1. 程式人生 > 實用技巧 >Towards Inheritable Models for Open-Set Domain Adaptation筆記

Towards Inheritable Models for Open-Set Domain Adaptation筆記

Towards Inheritable Models for Open-Set Domain Adaptation筆記

目錄

方法概述

現有方法都假設可以訪問一個已標註的源域樣本集。然而在有些時候,源域由於專有性質或隱私問題,樣本的使用會受到限制,例如在醫療、生物等一些特殊的行業,有些敏感資料是不能被公佈出來的。源域樣本與目標域樣本共存的依賴無法滿足,現有方法也就無法直接使用源域樣本來進行目標域樣本的識別分類。所以在源域樣本不存在或不可訪問的背景設定下

,Kundu等人提出供應商——客戶模式以及一種面對開放集域適應的可繼承模型(Inheritable Models),並提出一種策略來量化模型中的可繼承性。

作者通過提出供應商——客戶模式來描述源域樣本缺失下的無監督域適應場景,之後設計可繼承模型並交付供應商訓練,以此從供應商的源域獲取特定任務的知識。之後將訓練完畢的可繼承模型交付給客戶。在源域樣本缺失的情況下,客戶對模型進行可繼承性的量化,確保為目標域選擇最合適的模型,並在繼承模型後對其進行適當的調整。

供應商——客戶模式

供應商——客戶模式是一個實際的無監督域適應下的場景,它假設供應商和客戶之間不存在資料交換,而且規定單個供應商模型可以與多個客戶共享,從而最大限度地減少在訓練上花費的精力。其形象化描述如下:

供應商擁有已標註的源域樣本\(D_s\),客戶擁有未標註的目標域樣本\(D_t\),供應商使用源域樣本訓練分類器\(h_s\)來獲取源域的條件概率分佈\(p(y_s|x_s)\),並把訓練後的模型\(h_s\)分享給客戶。通過模型\(h_s\)以及目標域的樣本\(D_t\)客戶可以學習到一個目標分類器\(h_t\)來獲取目標域的條件概率分佈\(q(y_t|x_t)\)

可繼承模型

可繼承模型是一個自適應模型,它能夠有效地從源域獲取特定任務的知識,並將這些知識遷移到目標域。模型的可繼承性則指的是模型在不訪問源域樣本的情況下跨域繼承和傳遞知識的能力。給定一個假設類\(\mathcal{H}\{h|h:\mathcal{X}\rightarrow \mathcal{Y} \}\)

,一個可繼承的模型\(h_s\)應該能夠在缺失源域樣本的情況下供客戶去學習一個分類器\(h_t\),使得\(h_t\)的效能接近\(\mathcal{H}\)中的最佳分類器的效能。

\(\mathcal{H}\)作為一個假設類,在滿足下述條件時,作者認為在源域的樣本上訓練的分類器\(h_s\)相對於\(\mathcal{H}\)來說是可繼承的:

當目標分類器\(h_t\)能夠訪問\(h_s\)的引數的時候,使用目標域未標註的樣本\(D_t=\{x_t:x_t\sim q_x\}\)\(q_x\)表示目標域的邊緣分佈概率)來學習目標分類器\(h_t\),在概率至少為\((1-\delta)\)的情況下,\(h_t\)的目標誤差不會超過\(\mathcal{H}\)中最佳分類器的目標誤差\(\epsilon(\epsilon >0,0<\delta<1)\),即其中,\(\xi(h)\)表示分類器h的錯誤率。

這個定義表明,在缺乏源域樣本的情況下,可繼承模型能夠可靠地將任務特定的知識轉移到目標域。

特徵拼接生成負例項

由於源域的樣本不可訪問,為了更好地識別目標域中處於私有標籤空間中的樣本,該方法使用特徵拼接技術生成負例項,來擴充源域的樣本集。

負例項資料集定義為\(D_n=\{(u_n,y_n):u_n\sim r_n,y_n\sim r_{\{y|u\}}\}\),其中\(u_n,y_n\)分別表示負例項的樣本與標籤,\(r_n\)則表示負例項潛在空間的邊緣概率分佈\(r_{\{y|u\}}\)表示負例項的條件分佈。該方法將源域樣本分佈空間中低密度的區域作為負例項樣本所在的分佈,如圖5-2-2-4所示。

圖5-2-2-4 包含負例項的可繼承模型

為了獲得\(D_n\),作者提出使用特徵拼接技術來生成負例項。

眾所周知,在深層CNN網路中,高層卷積層專門用於捕獲能夠區分類別之間的特徵。由於CNN的這種特性,每當在輸入中觀察到屬於源域特定類別的特徵時,特徵圖都會接收到高啟用。因此,通過抑制這樣的較高啟用,就可以獲得不屬於源域特定類別屬性的特徵,從而更準確地識別目標域中屬於私有標籤空間的樣本

圖5-2-2-5 特徵拼接圖解

特徵拼接技術是指在特定特徵層中,用屬於不同類別樣本的相應啟用來替換前d百分位的啟用,如圖5-2-2-5所示,圖中顏色的深淺表示啟用值的高低。這個過程產生了一個新的特徵,它不是源域中某個特定類別的特徵,但是位於源域樣本的分佈附近。為了標註這些負例項,該方法執行一個K均值聚類,併為每個樣本聚類分配一個唯一的負例項類別標籤。通過訓練分類器\(G_n\)將這些樣本分類為K個負例項類別,獲得目標域私有標籤空間中的樣本特徵,進而在客戶適應模型時,將共享標籤空間中屬於私有標籤空間的樣本精確分離。

模型的結構及訓練

在無監督開集域適應中,主要的挑戰是解決負遷移問題。這一挑戰源於深度模型中的過度自信問題,即目標域中屬於私有標籤空間的樣本未被正確地從共享標籤空間分離,而是被“過度自信”地分類到共享標籤空間中,從而錯誤地分類到源域的某個類別。

以往的方法傾向於利用域鑑別器在適應期間為潛在的目標域私有標籤空間中的樣本分配低例項級權重來避免負遷移。然而,在源域與目標域之間沒有資料交換的情況下,上述解決方案是不可行的。因此,可繼承模型要具有表徵源域樣本分佈的能力,從而在適應期間檢測目標域中屬於私有標籤空間的樣本。

可繼承模型的架構包括供應商訓練客戶適應兩部分,以下分別針對每個部分進行詳細描述。

架構中的供應商訓練部分由特徵提取器\(F_s\)分類器G兩部分組成,如圖5-2-2-3所示。其中特徵提取器\(F_s\)由一個骨幹卷積神經網路(Convolutional Neural Networks, CNN)\(M_s\)與全連線層\(E_s\)組成;分類器G由源域分類器\(G_S\)與分類器\(G_n\)組成,其中\(G_n\)用來探測目標域中屬於私有標籤空間的樣本。兩個分類器通過softmax啟用函式進行連線。

圖5-2-2-3 模型架構中的供應商訓練部分

關於供應商對模型的訓練,首先使用\(D_S\),最小化交叉熵損失\(L_b\)來預訓練\(\{F_s,G_s\}\):

其中\(\sigma\)表示softmax啟用函式。然後固定CNN骨幹網路\(M_s\),使用\(M_s\)最後一層提取到的源域樣本的特徵,通過特徵拼接技術生成負例項\(D_n\),然後使用\(D_s\)以及\(D_n\),通過最小化損失\(L_s\)來繼續訓練模型\(\{E_s,G_s,G_n\}\),

一旦可繼承模型\(h_s=\{F_s,G\}\)完成了訓練,就會將該模型轉移到客戶手中。

架構中的客戶適應部分由之前供應商訓練部分中的特徵提取器\(F_s\)以及分類器G,和一個由\(F_t=\{M_t,E_t\}\)組成,如圖5-2-2-4所示。

![image-20201026095102586](<https://gitee.com/Jason66661010/imagecloud/raw/master/img/20201026095104.png)

圖5-2-2-4模型架構中的客戶適應部分

客戶得到經過訓練後的可繼承模型\(h_s\),第一個任務是衡量域偏移的程度,以確定供應商模型的可繼承性。接下來是一個選擇性的適應過程,在該過程中完成共享標籤空間中源域與目標域樣本分佈的對齊,同時避免負遷移

量化可繼承性

客戶拿到供應商訓練完的可繼承模型後,首先要進行模型可繼承性的量化衡量。在域偏移程度較小的情況下,大多數共享標籤空間中的樣本都位於潛在空間中的高密度區域附近,因此,可以依靠\(h_s\)的類別可分性知識來進行目標樣本的標註。然而,隨著域偏移的增加,高密度區域附近的目標樣本的濃度降低,這種知識變得不太可靠。由此可見,\(h_s\)對於目標任務的可繼承性會隨著域偏移的增加而降低

於是該方法定義了一個可繼承性度量標準\(W\),滿足:

其中\(p_x\)表示源域的邊緣分佈,\(q^{sh}_x\)表示目標域共享標籤空間的邊緣概率分佈,\(q^{uk}_x\)表示目標域私有標籤空間的邊緣概率分佈。之後該方法利用分類器的置信度來實現可繼承性的例項級度量

其中\(c_i\)表示類別,\(\sigma\)表示softmax啟用函式。

由於供應商的模型架構中分類器G的輸出由softmax函式連線,所以這裡置信度最大值的衡量是在分類器\(G_s\)的輸出中完成的。也就是說,源域樣本在$G_s$分類器中擁有最高的置信度,目標域共享標籤空間中的樣本置信度次之,置信度最低的是目標域私有標籤空間中的樣本。

為進一步擴充套件例項級的可繼承性,該方法在整個目標域樣本集下定義了一個衡量繼承性的模型:

\(\mathcal{I}\)值更高,表示域偏移的程度越小,這意味著任務特定的知識的可繼承性更大。

選擇性適應

客戶對模型的適應包括兩個步驟——繼承調整。其中繼承是為了獲得類別可分性知識,而調整則是為了避免負遷移。

對於繼承來說,\(h_s\)的類可分性知識對於可繼承性度量\(W\)較高的目標域樣本是可靠的。隨後,該方法基於\(W(x_t)\)來選擇前k百分位目標域樣本,並使用由供應商傳遞來的模型\(h_s\)獲得上述樣本的偽標籤

通過最小化交叉熵損失\(L_{inh}\),使得目標預測的結果匹配這些樣本的偽標籤,從而繼承類可分性知識:

對於調整來說,在缺乏標籤資訊的情況下,熵最小化方法被廣泛用於將未標註樣本的特徵移向高置信度區域。然而,為了避免負遷移,該方法並沒有直接使用熵最小化,而是在損失函式中使用\(W\)作為軟例項權重具有較高\(W\)的目標域樣本被導向到高密度區域,而具有較低\(W\)的目標域樣本被推入低密度區域。這種分離是減少負遷移影響的關鍵。

首先使用分類器G獲得一個樣本屬於共享標籤空間的概率:,之後最小化損失\(L_{t1}\)來促進屬於目標域私有標籤空間的樣本從共享標籤空間中分離:。為了進一步鼓勵共享標籤空間的樣本分佈在精細級別上對齊,該方法分別計算概率向量:並最小化損失\(L_{t2}\):其中的H表示夏農熵。

則總的適應損失就是:

最終客戶通過繼承與調整兩個步驟,在最小化總適應損失\(L_a\)模型變可以較好地適配目標域的特定任務。

效能分析

在可繼承模型開集域適應方法中,作者分別使用Office-31資料集以及office-home資料集來進行方法效能的驗證。其中在Office-31資料集的設定中,源域的類別數為10個,目標域的類別數為20個;在office-Home資料聚集的設定中,源域的類別數為25個,目標域的類別數為65個。作者使用ResNet網路、RTN以及前面的迭代分配變換開集域適應(ATI-\(\lambda\))和反向傳播開集域適應(OSBP)來作為實驗的基線。實驗的結果分別如圖5-2-3-8、圖5-2-3-9所示。

圖5-2-3-8方法三在Office-31資料集中OS、OS*項的實驗結果

圖5-2-3-9方法三在office-Home資料集中OS、OS*項的實驗結果

在實驗過程中,作者還驗證該方法在不同開放度下的魯棒性較其它基線更為突出,如圖5-2-3-10所示。

圖5-2-3-10方法三在不同開放度下的實驗結果

除了常見的驗證方法之外,由於該方法單個源域生成的模型可以供多個目標域樣本共享,於是針對這一部分,作者通過與普通基線方法在訓練時間方面進行對比,證實這樣的策略確實可以有效縮短訓練的時間。