1. 程式人生 > >[ML] 多工學習以及流行正則化

[ML] 多工學習以及流行正則化

Andrew Zhang
May 24, 2016

線性迴歸容易因為過擬合而出現高方差,因此為了控制模型複雜度往往線上性迴歸的時候新增很多正則項,眾所周知的就有 L0,L1,L2 L1 正規化效果是使得引數每一項的值向0縮減,而 L0,L2 正規化則是通過將一些引數的權值歸零來縮減特徵的個數。

一、多工學習的提出
在多工學習中,每一個任務下資料特徵的維數相等,並且對應於相同的意義。
基於 L1 正規化可以縮減特徵的性質,Multi-task feature learning via efficient l2, 1-norm minimization

這篇文章將其擴充套件到了多工學習中。
其中使用的目標函式表示式為
minW12kj=1||yjAjwj||2+ρ||W||2,1(1-1)
其中 wjRn×1 相當於普通線性迴歸裡面的權重, W=[w1,w2,...,wk]n×k
, ||W||2,1=ni=1||wi|| ,而 wi=[Wi,1,Wi,2,...,Wi,k] 。這裡相當於對引數矩陣 W 進行了一次按行稀疏化,也就是按行進行特徵選擇。

二、多工學習之任務間正則化約束
考慮到不同任務間的資料表示的是同一個狀態,Inter-modality relationship constrained multi-modality multi-task feature selection for Alzheimer’s Disease and mild cognitive impairment identification

這篇文章提出了對任務間的特徵進行流形相似度約束,即利用當前該任務的線性迴歸權重 wj 對該任務下的特徵進行對映,要求對於同一個樣本不同任務下對映後的點的距離要相近。即
D=ni=1mj=1mk=1,kj||xjiwjxkiwk||2F||xjixki||2F(2-1)
再加上多工學習的約束條件,這篇文章的總的約束目標函式就是
minwmj=1||Xjwjyj||2F+λ1||W||2,1+λ2D(2-2)
其中 n 表示樣本個數, m 表示任務個數,其它表示方式雖有不同但類似不再詳述。

三、多工學習之樣本間正則化約束
以往的的話如果僅僅有一個任務下采集到的資料,我們往往對單個任務下的資料建立分類模型,Manifold regularized multitask feature learning for multimodality disease classification這篇文章與上一篇類似,利用對應任務下線性迴歸的引數 wj ,將這個任務下的特徵進行對映,要求對於同一個任務來說,對映後這個任務下類別相同的點對映後應該離得儘量近。所以有如下的正則化約束因子,
minWMm1Ni,jSmij||f(xmi)f(xmj)||22(3-1)
並且公式(3-1)等價於
minw2Mm=1(Xmwm)TLm(Xmwm)(3-2)
其中如果 xmi xmj 同一類的話 Smij=1 否則 Smij=0 .對於公式(3-1)化簡得到的公式(3-2)主要說說這個 Lm ,容易發現
Lm=DmSm(3-3)
其中 Dm 是一個對角矩陣, D