1. 程式人生 > 實用技巧 >AFN—Larger Norm More Transferable: An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation學習筆記

AFN—Larger Norm More Transferable: An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation學習筆記

AFN—Larger Norm More Transferable: An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation學習筆記

目錄

tip

文章通過VisDA2017源模型上源域和目標域樣本的特徵視覺化推導了兩個假設:錯位特徵範數假設與較小特徵範數假設。在每次迭代中,將特徵範數自適應應用於任務特定的特徵。而對應兩個假設,作者提出兩種新的域適應方法:對於AFN的硬變換與逐步變換。硬變換在實驗中證明之前的假設錯誤,而在逐步變換SAFN中,當前的特徵範數要接近於上一次迭代的特徵二範數+\(\Delta r\),以漸進的方式學習具有更大範數的特定任務特徵。

文章還提出了針對模型魯棒性的衡量方法。

Abstract

在這篇文章中,作者從經驗上揭示了目標域的不穩定辨別主要源於它相對於源域的小得多的特徵範數

。為此,作者提出了一種新的無引數自適應特徵範數方法。逐步調整兩個領域的特徵範數到範圍較大的值可以導致顯著的遷移效果,這意味著那些具有更大範數的特定任務特徵更容易遷移。我們的方法成功地統一了標準域和部分域自適應的計算,對負遷移問題具有更強的魯棒性。

introduce

模型退化的概念已經在資料分析團體中得到很好的認可,但是很少有方法來分析該現象的內在原因。因此,現有的統計差異的方法可能無法精確地描述域遷移,並且著這種差異可能無法保證跨域的安全遷移。 在本文中,作者從一個堅實的經驗觀察中向揭示模型退化的本質邁出了一步。

該圖為源模型上源域和目標域樣本的特徵視覺化。這種技術被廣泛用於描述softmax相關目標下的特徵嵌入

。具體來說,我們將特定於任務的特徵設定為二維,並重新訓練模型。與t-SNE不同的是,這裡的空白空間的大小考慮了兩個資料點之間的相似性,這種視覺化地圖使我們能夠解釋特徵範數的大小以及類間和類內的差異。如圖所示,目標樣本傾向於在小范數(即低半徑)區域中碰撞,該區域容易受到決策邊界的微小角度變化的影響,並導致不穩定的辨別。

從目前的觀察來看,仍有兩種假設的解釋:

  1. 錯位特徵範數假設:源域和目標域之間的域遷移依賴於它們錯位的特徵範數期望。將兩個域的平均特徵範數與任意共享標量相匹配,可以產生相似的傳輸增益。
  2. 較小特徵範數假設:對於目標任務來說,域遷移實質上依賴於具有較小范數的過多的小特徵資訊。儘管沒有嚴格的比對,但調整目標特徵遠離小范數區域可以實現安全遷移

作者提出了無引數的 Adaptive Feature Norm (AFN) 方法,首先,作者提出了一個簡單而有效的統計距離來表徵跨域的均值-特徵-範數差異。第二,作者設計了硬AFN,通過限制兩個域的期望特徵範數來接近於一個共享標量,從而彌合域間差異。

這表明,範數對齊的特徵可以帶來有效的遷移,結果可以使用一個大標量來進一步改善。為了以一種穩定的方式探索一個更充分的大特徵範數,我們提出了逐步AFN法,以鼓勵對跨域的每個個體樣本進行漸進的特徵範數擴大。正如逐步AFN揭示的那樣,實現成功遷移的關鍵是在於將目標樣本適當地提升到較大範數的區域,而嚴格的比對是多餘的。

作者認識到,那些具有更大範數的特定任務特徵意味著具有更多的資訊可傳遞性。作者將較大範數約束放在任務特定的特徵上,以促進目標域上更具資訊性和可遷移性的計算。

值得注意的是,在部分域適應問題中,負遷移不僅來自共享類別中的無關樣本,還來自源域非共享類別中的無關資料

作者的貢獻:

憑經驗揭示了模型退化的本質,目標域特徵相對於源域特徵的非常小的範數解釋了它們辨別的不穩定。

為部分域適應提出一種新的AFN方法,通過逐步調整兩個域的特徵範數來適應大範圍的標量。

我們成功地統一了普通域適應和部分域適應中的計算方法,並且特徵-範數-自適應方式對抵抗負遷移更為魯棒。

Method

Preliminaries

源域表示為\(D_s=\{(x_i^s,y_i^s)\}^{n_s}_{i=1}\),其中\(n_s\)表示源域樣本的數量,源域擁有類別的個數為\(|C_s|\)。目標域表示為\(D_t=\{x_i^t\}^{n_t}_{i=1}\),其中\(n_t\)表示目標域未標註樣本的數量,目標域擁有類別的個數為\(|C_t|\)

Vanilla Setting:\(C_s=C_t\)

Partial Setting\(C_s\supset C_t\)

L2-preserved Dropout

在這一部分中,作者首先證明了標準的drop操作是L1保持的。由於作者的演算法是基於隱藏特徵的L2範數計算的,因此我們引入以下L2保持的drop操作來實現我們的目標。

drop是深度神經網路中常用的正則化技術。給定一個d維的向量\(x\),在訓練階段,隨機用\(a_k\sim P\)以概率\(p\)歸零向量中的某一維的資料:

\[\begin{equation} P(a_k)=\left\{ \begin{aligned} p,a_k=0 \\ 1-p,a_k=1 \end{aligned} \right. \end{equation}\]

為了在評估階段計算單位函式,輸出被進一步縮放一個因子\(\frac{1}{1-p}\),即

\[\hat{x}_k=a_k\frac{1}{1-p}x_k \]

因為\(x_k\)\(a_k\)是獨立的,所以在訓練和測試階段都隱含地保留了L1範數:

\[\mathbb{E}[|\hat{x}_k|]=\mathbb{E}[|a_k\frac{1}{q-p}x_k|]=\frac{1}{1-p}\mathbb{E}[a_k]\mathbb{E}[|x_k|]=\mathbb{E}[|x_k|] \]

然而,在追求自適應L2特徵範數時,將輸出縮放一個因子\(\frac{1}{\sqrt{1-p}}\)得到:

\[\hat{x}_k=a_k\frac{1}{\sqrt{1-p}}x_k \]

並滿足:

\[\mathbb{E}[|\hat{x}_k|^2]=\mathbb{E}[|a_k\frac{1}{q-p}x_k|^2]=\frac{1}{1-p}\mathbb{E}[a_k^2]\mathbb{E}[|x_k|^2]=\mathbb{E}[|x_k|^2] \]

Framework

該方法的框架包括一個骨幹網路G和一個分類器F。現有的研究表明,深層特徵最終會沿著網路從一般過渡到特定,並且特徵可遷移性在更高層會顯著下降

在該方法中,G視為一個特徵生成提取單元,它繼承瞭如ResNet等流行的網路體系結構。F表示一個擁有l個全連線層的特定特徵的分類器。作者將分類器前l-1層表示為\(F_f\),這叫做所謂的瓶頸特徵嵌入,那些由\(F_f\)計算的特徵在很大程度上依賴於特定的領域,並且不能安全地遷移到新的領域。使用最後一層作為\(F_y\)來計算類別的概率。\(G,F_f,F_y\)的引數分別表示為\(\theta_g,\theta_f,\theta_y\)

作者的目的是探索一種僅使用源域監督來計算域可遷移特徵\(f=F_f(·)\)的自適應演算法。另一方面,當統一關於普通和部分域適應的計算時,還要防禦由源域中的非共享類別引起的負轉移效應。

AFN方法的模型框架。G表示特徵提取模組,F表示一個擁有l個全連線層的特定特徵的分類器,每一層的形式都是FC-BN-ReLU-Dropout。在每次迭代中,將特徵範數自適應應用於任務特定的特徵,同時將源分類損失作為我們的優化目標。對於AFN的硬變換(Hard)源樣本和目標樣本的平均特徵範數被約束到一個共享標量。對於逐步變換(Stepwise),我們鼓勵在步長為\(\Delta r\)的情況下對每個個體樣本進行漸進的特徵範數擴大。為此,在自適應後遠離小范數區域,目標樣本可以在沒有任何監督的情況下被正確分類.

Hard Adaptive Feature Norm

基於錯位特徵範數假設,作者提出了最大平均特徵範數差異(MMFND)來表徵兩個分佈之間的平均特徵範數距離,並驗證彌合這一統計域差距是否能導致可觀的遷移增益。MMFND定義為

\[MMFND[\mathcal{H},D_s,D_t]:=\sup\limits_{h\in \mathcal{H}}\frac{1}{n_s}\sum\limits_{x_i \in D_s}h(x_i)-\frac{1}{n_t}\sum\limits_{x_i \in D_t}h(x_i) \]

其中函式類\(\mathcal{H}\)是由L2範數與深度表徵模組合成的所有可能函式的組合,\(h(x)=(||·||_2◦F_f◦G)(x)\).

直觀上,H類的函式足夠豐富,在輸入x上包含實質上的正實值函式,如果對函式型別沒有限制,上界會大大偏離零。為了避免這種情況發生,作者放置了一個限制性標量R來匹配相應的平均特徵範數。通過限制兩個域的平均特徵範數分別收斂到共享平衡,域間隙將消失為零。我們通過硬自適應特徵範數演算法(HAFN)實現這一點:

\[C_1(\theta_g,\theta_f,\theta_y)=\frac{1}{n_s}\sum\limits_{(x_i,y_i)\in D_s}L_y(x_i,y_i)+\lambda(L_d(\frac{1}{n_s}\sum\limits_{x_i\in D_s}h(x_i),R)+L_d(\frac{1}{n_t}\sum\limits_{x_i\in D_t}h(x_i),R))(7) \]

優化目標由兩項組成:

  1. 源域分類器損失\(L_y\),以便通過最小化源域已標記樣本上的softmax最大交叉熵來獲得任務區分特徵,由等式(8)表示。其中\(p = p_1,...,p_{|C_s|}\)是分類器預測的softmax啟用值,即\(p =softmax(F(G(x))\)
  2. 通過最小化兩個域之間的特徵範數差異來獲得域可遷移特徵的特徵範數懲罰,其中\(L_d(·)\)被視為L2距離,λ是權衡兩個目標的超引數。

\[L_y(x^s_i,y^s_i;\theta_g,\theta_f,\theta_y)=-\sum\limits^{|C_s|}\limits_{k=1}\mathbb{1}_{[k=y^s_i]}log(p_k)(8) \]

通過執行HAFN將這種特徵-規範差異與僅源域監督聯絡起來,最終可以實現任務區分和域可轉移的特徵。

然而,R的偏好設定仍未確定。正如之前錯位特徵範數假設所指出的,將兩個域的特徵範數期望與任意共享的真實值相匹配,應該會產生相似的遷移增益。但我們的是實驗結果發現這種說法並不正確。具體而言,儘管將兩個域的平均特徵範數限制為一個相當小的值(例如,R = 1,即特徵歸一化)已經顯示出有效的結果,但是,隨著R逐漸增加,所獲得的模型仍然傾向於在目標任務上實現更高的精度。為此,需要探索一個足夠大的R,並驗證特徵-範數期望之間的嚴格對齊是否是必要的,這是由我們的較小特徵範數假設揭示的。事實上,不幸的是,HAFN未能設定非常大的R,因為由特徵範數懲罰產生的梯度最終可能導致爆炸

Stepwise Adaptive Feature Norm

為了打破上述瓶頸,作者引入了一種稱為逐步自適應特徵範數(SAFN)的改進變體,以鼓勵模型以漸進的方式學習具有更大範數的特定任務特徵,如等式所示:

\[C_2(\theta_g,\theta_f,\theta_y)=\frac{1}{n_s}\sum\limits_{(x_i,y_i\in D_s)}L_y(x_i,y_i)+\frac{\lambda}{n_s+n_t}\sum\limits_{x_i\in D_s\cup D_t}L_d(h(x_i;\theta_0))+\Delta r,h(x_i;\theta)(9) \]

其中\(\theta=\theta_g\cup \theta_f\)\(\theta_0\)\(\theta\)分別表示上次迭代和當前迭代中更新的模型引數,\(\Delta r\)表示表示控制特徵範數放大的正剩餘標量。

在每次迭代過程中,SAFN當前的特徵範數要接近於上一次迭代的特徵二範數+\(\Delta r\)。SAFN沒有指定硬值,而是使優化過程更加穩定,並且很容易在兩個目標之間進行權衡。為此,執行SAFN可以通過用更大的範數生成更多的資訊特徵來實現目標任務的更高精度。值得注意的是,SAFN並沒有嚴格地彌合均值-特徵-範數的差異,但可以選擇放置一個終端R來限制無限擴大,如E公式(10)所示。然而,我們的實證結果顯示,公式(10)替換了公式(9)中的第二項後會有稍微不同的結果。正如較小特徵範數假設所指出的,一旦我們將目標樣本適當地調整到大範數區域,嚴格的比對就變得多餘了.

\[L_D(max(h(x_i;\theta_0)+\Delta r,R),h(x_i;\theta))(10) \]

Model Robustness Evaluation

作者提出了有意義的協議來評估給定演算法的魯棒性,特別是在更一般的區域性設定下。值得注意的是,在這種情況下,負遷移不僅是由共享類別中的不相關樣本引起的,也是由源域非共享類別中的不相關樣本引起的

使用\(A^{l\%}_{\mathcal{T}|C_t|}、A_{S|C_t\rightarrow|C_t|}、A_{S|C_s|\rightarrow \mathcal{T}_{|C_t|}}\)分別表示使用了\(l\%\)已標註樣本的精度、不包括源域非共享類別的精度、包括源域非共享類別的精度。

作者定義:

\(A^{l\%}_{\mathcal{T}|C_t|}-A_{S|C_t\rightarrow|C_t|}\):Closed Negative Gap(CNG):如果演算法不能從另一個域的負面影響中獲得比僅僅標記幾個(例如,1%)目標資料更多的傳輸增益,就會產生負面影響,這在實際部署時是沒有價值的。

\(A_{S|C_t\rightarrow|C_t|}-A_{S|C_s\rightarrow|C_t|}\):Outlier Negative Gap, (ONG):測量由源域非共享類別引起的負面影響。

\(A^{l\%}_{\mathcal{T}|C_t|}-A_{S|C_s\rightarrow|C_t|}\):Partial Negative Gap, (PNG):揭示了演算法是否有價值在SNG與PNG的潛在風險下進行遷移。一旦Gap差距值為正,負效應就會超過正增益,反之亦然。較大的絕對值意味著更絕望的負面影響或更令人鼓舞的正面收益。