1. 程式人生 > >域適應學習筆記:visual Domain Adaptation

域適應學習筆記:visual Domain Adaptation

在遷移學習中, 當源域和目標的資料分佈不同 ,但兩個任務相同時,這種 特殊 的遷移學習 叫做域適應 (Domain Adaptation,DA )。因為其任務相同,所以根據上篇部落格中的內容可知,域適應屬於一種直推式遷移學習。它在2006年由Daumeaume等人首次提出[1]。
1.域適應的一些基本公式
源域由充足的帶標籤資料組成,目標域由不充足的帶標籤資料或者充足的無標籤資料組成。且目標域與源域中資料的分佈不相同。X,Y分別表示帶標籤資料的資料以及標籤,P(X,Y) 是X,Y的聯合概率分佈(joint distribution)(聯合概率分佈的幾何意義為:如果將二維隨機變數(X,Y)看成是平面上隨機點的座標,那麼分佈函式F(x,y)在(x,y)處的函式值就是隨機點(X,Y)落在以點(x,y)為頂點而位於該點左下方的無窮矩形域內的概率。)。P

(X,Y)sP(X,Y)t 分別對應源域以及目標域的聯合分佈函式。Ps(X), Ps(Y), Pt(X), Pt(Y) 表示源域和目標域中X以及Y的邊緣分佈(marginal distributions)(某一組概率的加和,叫邊緣概率。邊緣概率的分佈情況,就叫邊緣分佈)。 Ps(X|Y), Ps(Y|X), Pt(X|Y), Pt(Y|X) 表示X,Y的條件分佈。X=x,Y=y 的聯合概率為P(X=x,Y=y)=P(x,y)xχ,yΥ, 其中χ,Υ 表示例項空間以及類標籤空間。
S={(xsi,ysi)}Nsi=1 表示源域中的有標籤資料,Tl={(xtil,ytil)}Ntli
=1
表示目標域中的有標籤資料,Tu={(xtiu)}Ntui=1 表示目標域中的無標籤資料,T 表示T1,T2 的集合。通常情況下Ns 遠大於 Ntl
域適應的目標是學習一個函式f() 用來測試目標域中的新的資料。根據源域與目標域中資料的不同域適應可以分類四類:
1)半監督域適應:函式f() 是通過S,Tl 學習得到。
2)無監督域適應:函式f() 是通過S,Tu 學習得到。
3)多域域適應(multisource domain adaptation):函式f() 是通過S 以及 1)2)兩種情形得到。
4)異質域適應(heterogeneous domain adaptation)

2.與域適應相關的幾種方法
1)Covariate shift
這種方法與域適應方法的一種最基本不同是在源域與目標域中標籤Y的條件分佈相同,但是X的邊緣分佈在兩個與中不相同。即Pt(Y|X=x)=Ps(Y|X=x) 對於所有的xχ成立,且Pt(X)Ps(X)。源域以及目標域之間的這些不同被稱為covariate shift或者sample selection bias.
例項加權的方法可以解決這種問題。即在損失函式中中加入一個權重使得源域與目標域之間的差異表小。
2)Class imbalance
這種方法對於所有的標籤yΥ,均有Pt(X|Y=y)=Ps(X|Y=y),以及Pt(Y)Ps(Y)
3)Multitask learning
在多工學習中源域與目標域的邊緣分佈是相似的。即對於所有不同的任務來說每個任務的聯合概率分佈不同,但是所有的任務共享一個邊緣分佈。求每個任務所對應的條件模型時各個模型的引數θ是通過相同的先驗分佈取樣得到。
4)Semisupervised learning
在半監督學習訓練過程中不但用到了帶標籤資料還用到了不帶標籤資料,但是要求這些資料必須具有相同的分佈。其餘域適應的區別有:半監督學習過程中帶標籤資料非常少,但是域適應中需要有充足的帶標籤資料。在域適應中如果不是以Y的條件分佈相同為前提的話那麼帶標籤資料是存在噪聲的,但是在半監督域學習中所有的帶標籤資料都認為是可靠的,因為它要求其帶標籤資料與不帶標籤資料的分佈相似。
5)self-taught learning
同樣帶標籤資料非常少,不帶標籤資料非常充足。但是此時不帶標籤資料也許和帶標籤資料不是特別相關。(這也是self-taught learning 與semisupervised learning最大的區別。)但是這些帶標籤資料與不帶標籤資料在一些特殊區域是有相似性的,例如一些邊緣或者是角。
如果不存在任何的帶標籤資料的話那就變為無監督self-taught learning, 也被稱為self-taught clustering.
6)Multiview analysis
現實生活中採集到的資料通常具有各種不同的角度,這就導致源域與目標域的特徵空間不同。在multiview learning中,兩種不同poses的樣本之間的對應關係是被假設成已知的,即同一個物體具有不同姿態下的圖片,但是在cross-view learninng from domain adaptation,則不需要這種假設。

3.視覺領域的一些域適應方法
1)特徵增強相關方法(feature augmentation-based approaches)
即通過將源域域目標域的特徵複製的方式,最簡單的將原始域中N維的特徵對映到一個增強的特徵空間中,得到3N維的特徵。在最初時候這個3N維特徵有N維為兩個域的公共特徵,N維為原始域的特徵,N維0特徵。然後將這些特徵送入有監督分類器中,學到一個針對兩個域的共同的對映空間。
當此方法用於異質域時(指兩個域的特徵的維度不同),則是先通過兩個投影矩陣將兩個不同維度的特徵對映到相同的特徵維度後,再通過相同的特徵增強的方式進行。

2)feature transformation-based approaches
最基本的思想是通過一種線性轉換WRN×M 將源域特徵