Learning to Transfer Examples for Partial Domain Adaptation學習筆記
Learning to Transfer Examples for Partial Domain Adaptation學習筆記
目錄tip
在域分類器以及源域分類器都對源域的樣本進行加權。
使用了額外的域分類器以及源域分類器,保證權重函式中既考慮到標籤資訊,又考慮到域資訊。
Abstract
在目標域樣本未標註的情況下,部分域適應面臨的主要挑戰是如何在共享類別中對相關的樣本進行遷移以促進正遷移,以及如何忽略源域中不相關的樣本以減輕負遷移。作者在本文中提出了一個方法Example Transfer Network (ETN),它聯合學習跨域的域不變性表示和一個漸進的加權方案來量化
源域樣本的可轉移性。
Introduction
以往的方法都是對對抗網路中的樣本進行加權,並對屬於源域非共享類別中的樣本進行降權。但是它們不能消除非共享類別對源域分類器的負面影響
作者在本文提出了Example Transfer Network (ETN)。ETN根據源域樣本與目標域樣本的相似性,使用可轉移性權重自動評估源域樣本的可轉移性,該權重用於衡量這些源域樣本對源分類器和域分類器的貢獻。特別的,ETN進一步揭示可轉移權重的區別性結構。通過這種方式,可以更好地檢測和過濾掉不相關的源域樣本。
related work
Partial Domain Adaptation
選擇性對抗網路(SAN)採用多個具有加權機制的對抗網路來選擇非共享類別中的源域樣本。部分對抗域適配(Partial Adversarial Domain Adaptation)通過僅使用一個對抗網路並進一步將類別級權重
Sigmoid輸出
來匯出源域樣本來自源域共享類別以及非共享類別的概率,該概率用於加權
領域對抗網路中的源域樣本。
這些方法減輕了由源域非共享類別引起的負遷移,並促進了共享類別之間的正遷移。然而,由於非共享類別僅被選擇出來用於域分類器,源域分類器仍然用所有類別來訓練
,它們對於共享類別的效能可能被非共享類別分散。此外,用於獲得重要性權重的IWAN的域分類器僅基於特徵表示來區分源域和目標域,而不利用源域中的分類資訊。這將導致使用非辨別性的重要性權重來區分共享類和異常類。
本文提出了一種例項轉移網路(ETN),它在源分類器上進一步降低非共享類別的無關樣本的權重
⭐⭐⭐,並採用域分類器來量化例項的可轉移性。
Example Transfer Network
文中源域表示為\(D_s=\{(x_i,y_i)\}^{n_s}_{i=1}\),其中\(n_s\)表示源域樣本的數量,源域擁有類別的個數為\(|C_s|\)。目標域表示為\(D_t=\{x_i\}^{n_s+n_t}_{i=n_s+1}\),其中\(n_t\)表示目標域未標註樣本的數量,目標域擁有類別的個數為\(|C_t|\)。目標域的類別空間是源域類別空間的子集:\(C_t\sub C_s\),即\(|C_s|>|C_t|\).源域與目標域的概率分佈分別由p與q表示,且$p_{C_t}\neq q \(,其中\)p_{C_t}\(表示源域中屬於目標域類別空間\)C_t\(的樣本的分佈。本文的目標就是設計一個深度神經網路模型,通過學習可遷移的特徵\)f=G_f(x)\(以及適應分類器\)y=G_y(f)$來減小域間差異。
Transferability Weighting Framework
域適應的關鍵就是要減小源域樣本域目標域樣本之間的域偏移。域對抗網路通過一個 two-player minimax game來學習可遷移的特徵,其中包括一個域分類器\(G_d\)來區別源域與目標域,還有一個特徵提取器經過微調後來欺騙域分類器。
為了得到域不變性特徵\(f\),通過最大化域分類器\(G_d\)的損失來學習特徵提取器\(G_f\)的引數\(\theta_f\),通過最小化域分類器的損失來學習\(G_d\)的引數\(\theta_d\)的引數。同時還要最小化標籤分類器\(G_y\)的損失。
則對抗網路的目標函式為:
\[E(\theta_f,\theta_y,\theta_d)=\frac{1}{n_s}\sum\limits_{x_i\in D_s}L_y(G_y(G_f(x_i)),y_i)-\frac{\lambda}{n_s+n_t}\sum\limits_{x_i \in D_s\cup D_t}L_d(G_d(G_f(x_i)),d_i)(1) \]\(d_i\)表示域標,\(L_y\)與\(L_d\)都是交叉熵損失。
但是由於源域非共享類別樣本的存在,域對抗網路的效能在部分域適應中相比普通域適應會下降。
本文提出了一種新的可遷移性加權框架來解決部分域自適應該技術難題。使用\(w(x^s_i)\)表示每個樣本\(x^s_i\)的權重,以此代表每個樣本的可遷移性
。那麼對於權重較大的源域樣本,要增加其對最終模型的貢獻來增強正遷移;否則,我們應該減少權重對減輕負遷移。IWAN在域分類器\(G_d\)中改變了源域樣本的權值,這裡作者又將權值使用在源域分類器\(G_y\)中,這明顯地加強了模型區分非共享類別樣本的能力。
此外,目標標籤的未知性會使共享類別的識別變得困難。因此,作者認為通過半監督學習來利用未標記的目標樣本也是不可或缺的。作者充分利用熵最小化原則。讓\(\hat{y}^t_i=G_y(G_f(x^t_j)\in \mathbb{R}^{|C_s|})\),量化目標樣本預測標籤的不確定性的熵損失為:
\[H(G_y(G_f(x^t_j)))=-\sum\limits^{|C_s|}\limits_{c=1}\hat{y}^t_{j,c}log\hat{y}^t_{j,c} \]\(G_f\)表示特徵提取器,\(G_y\)表示源域分類器,\(G_d\)表示域分類器(包括對抗訓練),\(\tilde{G}_d\)表示額外的域分類器(不包括對抗訓練),量化每個源域樣本的可轉移性\(w\),\(\tilde{G_y}\)表示額外的域標籤分類器,將分類資訊編碼到輔助域分類器。藍色部分是本文新提出的。
通過使用每個源域樣本的可遷移性權重對源域分類器\(G_y\)與域分類器\(G_d\)進行加權,並結合熵最小化準則,作者提出以下目標:
其中\(\gamma\)表示已標註源域樣本與未標註目標域樣本的權衡引數。
該模型能夠進行端到端的訓練,找到鞍點使得引數\(\hat{\theta}_f,\hat{\theta}_y,\hat{\theta}_d\)滿足:
Example Transferability Quantification
在擁有了帶權值的框架後,現在的關鍵就是如何定義每個源域樣本的可遷移性權值。作者使用一個額外的域分類器\(\tilde{G}_d\),但是這個域分類器不進行對抗訓練,即特徵生成器不會欺騙\(\tilde{G}_d\),這種輔助域鑑別器可以通過將每個源域樣本\(x^s_i\)分類到目標域的Sigmoid概率來粗略地衡量源域樣本的可遷移性。
域分類器\(\tilde{G}_d\)通過該假設來區分源域與目標域的樣本:源域樣本中屬於共享類別的樣本比非共享類別的樣本離目標域樣本更接近。但是域分類器對源域與目標域樣本的區分只基於域資訊
,當\(\tilde{G}_d\)訓練較好的時候有時還是無法區分源域與目標域的樣本。因此作者又將辨別性資訊新增到權重設計
中,以解決共享類別樣本與非共享類別樣本的模糊性。
作者的目標是設計一個既使用了辨別性資訊,又使用了域資訊的遷移方法$w(x^s_i)$,對源域共享類別的樣本與非共享類別的樣本分別生成各自的權重
。於是作者使用\(leaky-softmax\)啟用函式添加了一個額外的標籤預測值\(\hat{G}_y\),特徵提取器的特徵變換為\(|C_s|\)即z維,之後向量經過\(leaky-softmax\):
其中\(z_c\)表示向量z的第c維。\(leaky-softmax\)的輸出接近1表示樣本來自源域,接近0表示樣本來自目標域。
如果定義\(\tilde{G}_d\)為:
\[\tilde{G}_d(G_f(x_i))=\sum\limits^{|C_s|}\limits_{c=1}\tilde{G}_y^c(G_f(x_i)) \]其中\(\tilde{G}_y^c(G_f(x_i))\)表示樣本\(x_i\)屬於類別c的概率,則\(\tilde{G}_d(G_f(x_i))\)可以被看做是計算每個樣本屬於源域的概率:\(\tilde{G}_d(G_f(x_i))\)越小,表示樣本越可能來自於目標域。
對於\(|C_s|\)個類別的分類問題,作者通過\(|C_s|\)one-vs-rest二進位制分類任務上的多工損失來訓練輔助標籤預測器\(\tilde{G}_y\):
\[E_{\tilde{G}_y}=-\frac{\lambda}{n_s}\sum\limits^{n_s}\limits_{i=1}\sum\limits^{|C_s|}\limits_{c=1}[y^s_{i,c}log\tilde{G}_y(G_f(x^s_i))]+[(1-y^s_{i,c})log(1-\tilde{G}_y^c(G_f(x^s_i)))] \]其中\(y^s_i\)表示源域樣本\(x^s_i\)是否屬於類別c的 ground-truth標籤
作者訓練\(\tilde{G}_d\)來區分源域與目標域的特徵:
\[E_{\tilde{G}_d}=-\frac{1}{n_s} \sum\limits^{n_s}\limits_{i=1}log(\tilde{G}_d(G_f(x^s_i)))-\frac{1}{n_t}\sum\limits^{n_t}\limits_{j=1}log(1-\tilde{G}_d(G_f(x^t_j))) \]\(\tilde{G}_d\)的訓練基於\(\tilde{G}_y\)的輸出,這就保證了\(\tilde{G}_d\)是用標籤資訊
和域資訊
訓練的,解決了共享類和非共享類之間的模糊性
,從而更好地量化了樣本的可遷移性。
最後,源域樣本的權重表示為:
\[w(x^s_i)=1-\tilde{G}_d(G_f(x^s_i)) \]由於源域樣本的\(\tilde{G}_d\)的輸出更接近1,這意味著非常小的權重,因此對批量為B的每個小批量中的權重進行歸一化:
\[w(x)\leftarrow\frac{w(x)}{\frac{1}{B}\sum\limits^B\limits_{i=1}w(x_i)} \]Minimax Optimization Problem
通過之前的可遷移性權重網路框架以及樣本的可遷移性量化,用\(\theta_{\hat{y}}\)表示額外的標籤預測器\(\tilde{G_y}\)的引數,ETN模型通過最小優化問題找到鞍點,令引數\(\hat{\theta}_f,\hat{\theta}_y,\hat{\theta}_d,\theta_{\hat{y}}\)滿足: