1. 程式人生 > >【ICML2018見聞】 遷移學習、多工學習領域的進展

【ICML2018見聞】 遷移學習、多工學習領域的進展

【導讀】如今 ICML(International Conference on Machine Learning,國際機器學習大會)已經成為有巨大影響力的會議,每年都會為我們帶來很多關於機器學習趨勢與發展方向等有意義的分享。今年的 ICML 有三個討論會都重點討論了遷移學習和多工學習。

本文的作者(Isaac Godfried)也是對這兩個領域的研究內容非常感興趣,接下來 AI科技大本營將把 Isaac Godfried 在這次大會上的一些見聞介紹給大家。

對於深度學習來說,若缺少大量帶標籤的高質量資料,會帶來較大的困難。許多工都全面缺乏資料點(如:預測選舉結果、診斷罕見的疾病、翻譯稀有語種等等)。還有一些情況,資料量是足夠的,但資料噪聲很大,或標籤的質量很低(如:通過關鍵詞搜尋從 Google 抓取的圖片、通過 NLP 技術制定標籤的醫療案例、只有部分註釋的文字語料庫)。但不管怎樣,找到合適的方法去學習這些低質量或有噪聲的資料都具有切實的意義。

可行的三種方法有遷移學習、多工學習(從技術角度來講,這個方法是一種類似領域自適應的遷移學習,但在本文中我會將它們看作不同的方法來討論)以及半監督學習。還有一些其他的解決方法(主動學習、元學習、無監督學習),但本文會以 ICML 參會文章提到的三種方法為重點。由於這些方法處於領域間的邊界,我們會也會涉及一些其它的方法,在這裡先做一個簡單的概述。

遷移學習

微調:假設我們同時有源分佈和目標分佈 S(y|x) 和 T(y2|x2),此處 x ≠ x2,y1 ≠ y2。若要進行微調,你必須具備目標域的標籤資料。通過遷移學習,我們固定網路的淺層和中間層,只對深層特別是新類別進行微調。

多工學習:

假設我們有任務 T1、T2、T3 ... Tn;這些任務同時進行訓練,例如:訓練一個同時做情緒分類和命名實體識別的多工網路。這是遷移學習的形式之一,因為從本質上來看,訓練過程中你是在進行知識的遷移。

域自適應:與微調很相似,唯一不同是這裡是域的改變而非標籤集。所以若給定兩種分佈 S(y|x) 和 T(y|x2) x ≠ x2,但 y 是相同的。域自適應會著重於目標域中無標籤資料的無監督學習。例如:適應從模擬器(源域)的有標籤汽車圖片到街道上(目標域)的無標籤汽車圖片的模型。

元學習(終身學習):元學習的目標是學習可以高度適應新任務的“通用”屬性(超引數或權重),它的學習過程基於大量不同任務的訓練。某種程度上,元學習可以被看作一種“歷史性的”多工學習,因為它基於多種不同的任務去尋找最合適的一組屬性。由於多工學習始終高度依賴於模型本身,所以近期元學習的趨勢更加偏向於找到一種“與模型無關”的解決方法。

無論在什麼產業或領域,遷移學習和多工學習都是非常重要的工具。無論你從事醫學、金融、旅遊或是創作,也無論你與影象、文字、音訊還是時間序列資料打交道,這些都是機會,你可以利用已經訓練好的通用模型,然後將其引入你的特定領域進行微調。基於你的資料,你可以訓練神經網路去同時解決多個相關任務,從而提高整體效能。

在那些專注於醫學領域的深度學習論文中,有一篇題目為 “Not to Cry Wolf: Distantly Supervised Multitask Learning Critical Care”的論文。在重症監護室中,常常有錯誤警報問題,所以很多醫生和護士可能對此變得不再敏感。這篇文章重點介紹如何利用多工學習和半監督學習來監測有生命危險的事件,而避免錯誤的警報。該論文的作者將輔助任務引入到多工學習中,無需花時間去打標籤就可以提高模型的效能。特別要提的是,為了真正減少訓練所需的標籤數目,他們的模型引入了大量不相關的有監督輔助任務。另外,他們開發了一種針對不相關的多工有監督學習的新方法,無論是面對多變數的時間序列,還是對有標籤和無標籤資料結合起來學習,該方法都能自動識別大量相關的輔助任務。

論文連結:https://arxiv.org/abs/1802.05027

談論會視訊(待放)

如果我們想使用多工學習,但只有一個任務,該怎麼辦呢?一篇名為 “Pseudo-task Augmentation: From Deep Multitask Learning to Intratask Sharing — and Back”的論文對這一問題給出了答案。作者提出利用偽任務來幫助提升主任務的表現。這一方案是可行的,因為從本質上來看,多工學習的工作原理基於中間層和淺層的特徵共享以及特定任務的解碼器。因此,使用多種解碼器來訓練模型可以有相同的效果,即使解碼器都在為同一個任務工作,這是因為每個解碼器是通過不同方式學習該任務的;這些附加的解碼器被稱為“偽任務”。該論文的作者在 CelebrityA 資料集上得出了當前最好的結果。我很期待能看到他們能用 IMDB 的評價資料集測試一下該方法。他們基於一個基礎模型,通過自主開發的技術進行訓練,從而得到了巨大的提升。這體現了該項技術有應用於不同神經網路結構的潛能。

論文連結:https://arxiv.org/abs/1803.04062

而“GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks”這篇論文闡述了一種新的多工神經系統正規化技術,可以幫助神經系統更快地收斂,提升整體效能。該技術也減少了調參所需的超引數數目,僅需要一個。該論文團隊使用梯度量化自動均衡演算法(GradNorm)在 NYU2 資料集上得出了當前最好的結果。總體來說,該論文真正減小了訓練 MLT 演算法模型的複雜度與難度。最後,該作者提出了一個有趣的想法,“GradNorm 或許也可以應用於多工學習以外的領域。我們希望將 GradNorm 演算法拓展到類別平衡與 seq2seq 模型上,以及所有由梯度衝突而引發模型效能不佳的問題。”

論文連結:https://arxiv.org/abs/1711.02257

到目前為止,大多數有關遷移學習的論文都只研究了從源域到目標域的知識遷移,通過預先初始化權重並保留部分層或降低學習率的方法來實現。可以說論文“Transfer Learning via Learning to Transfer”完美地闡釋了什麼是“元-遷移學習”(meta-transfer learning) 或者說"學習如何遷移學習" (即 L2T, learn to teach)。

論文中用以描述 L2T 工作流程的圖片

作者是這樣解釋的:

不像 L2T,所有現有的遷移學習演算法研究的都是從零開始遷移,例如:只考慮一對興趣領域,而忽略了之前的遷移學習經驗。但不如這樣,L2T 框架能夠將所有演算法的智慧集於一身,上面提到的任何一種演算法都可以應用到遷移學習經驗之中。

論文連結:http://proceedings.mlr.press/v80/wei18a/wei18a.pdf

那麼現在問題來了,這一方法與“元學習”有何不同呢?實際上,L2T 可以被看作一種特殊的元學習:和元學習相同的是,它利用過去的歷史經驗來提升學習能力。然而,這裡的歷史指的是從源域到目標域的遷移學習。



論文中引用的不同學習方法對比圖

該論文作者基於 Caltech-256 資料集對 L2T 框架進行了評估,模型在此前最好結果的基礎上有所提升。

我(本文作者)個人很高興看到 “Explicit Inductive Bias for Transfer Learning with Convolutional Networks”被選入 ICML,此前該論文被 ICLR(International Conference on Learning Representations)拒掉了。這篇論文描述了一種將正規化應用於遷移學習從而代替修改學習率的方法。研究者提出了幾種新的正規化方法,可以基於預先訓練好的模型的權重使用不同的懲罰項。他們得到了很好的實驗結果,目前我也正在嘗試把這一方法應用到我自己的幾個醫學影像模型中。

論文連結:https://arxiv.org/abs/1802.01483

“Curriculum Learning by Transfer Learning: Theory and Experiments with Deep Networks”是一篇以理論為主的論文,對“課程學習” (curriculum learning) 進行了深入研究,這一說法來源於教育和心理學領域,其目的是在有一定發展前提的規則下,學習更多不同的概念。該論文還特別關注了遷移學習和課程學習之間的關係,以及課程學習和訓練所用到例子的順序之間的關係。這裡要注意的一點是,這種型別的遷移與之前討論的型別有所不同。在這篇論文中,遷移學習指的是研究“知識從一個分類器到另一個分類器的遷移,如從老師分類器到學生分類器”。作者得出的結論是,課程學習使學習速率加快了,特別在處理困難的任務時,最終結果的提升尤為明顯。

論文連結:https://arxiv.org/pdf/1802.03796.pdf

(無監督)域自適應的問題之一是目標域與源域的分佈的一致性問題。無監督域自適應是遷移學習的型別之一。由此作者通過保證有標籤樣本和偽標籤樣本的一致性,開發了一種可以學習無標籤目標樣本語義表達的語義遷移網路。(論文“Learning Semantic Representations for Unsupervised Domain Adaptation”)他們的方法通過基於語義損失函式來減小源域和目標域的差異的方法,使源分佈和目標的分佈一致。該方法在 ImageCLEF-DA 和 Office31 資料集上都取得了當前世界上最好的表現。

論文中的用圖

論文連結:http://proceedings.mlr.press/v80/xie18c/xie18c.pdf

github 地址:https://github.com/Mid-Push/Moving-Semantic-Transfer-Network

論文“Detecting and Correcting for Label Shift with Blackbox Predictors”是關於域自適應的另一篇有趣的論文。該論文的重點在於檢測訓練和測試中 y 分佈的變化,這一方法在醫學上尤為有用,流行病或爆發疾病會對分佈產生明顯的影響。

面對訓練集和測試集分佈之間的變化,我們希望可以檢測和量化其間的變化,在沒有測試集標籤的情況下就可以對我們的分類器進行修正。

該論文的主題主要是協變數的變化。作者設計了幾個有趣的標籤轉換模擬器,然後應用於 CIFAR-10 資料集與 MINST 了。相比於未修正模型,他們的方法大大提升了準確性。

論文連結:http://proceedings.mlr.press/v80/lipton18a/lipton18a.pdf

我發現論文“Rectify Heterogeneous Models with Semantic Mapping”有趣的點在於為了對齊分佈,它引入了最優傳輸的方法。



論文中描述特徵空間模型的圖片

總之,該論文提出了最初的想法,並在模擬資料集和真實資料集上都取得了較好的結果,資料集包括 Amazon 使用者點選資料集和學術論文分類資料集。

論文連結:http://proceedings.mlr.press/v80/han-jia18a/han-jia18a.pdf

上述這些只是 2018 ICML 上一部分有趣的論文,還有許多其它的優秀論文。希望之後可以對有關元學習和其餘的半監督學習論文進行總結並與大家分享,這部分論文也同樣引人入勝。

原文連結:

https://towardsdatascience.com/icml-2018-advances-in-transfer-multitask-and-semi-supervised-learning-2a15ef7208ec

相關推薦

ICML2018見聞 遷移學習學習領域進展

【導讀】如今 ICML(International Conference on Machine Learning,國際機器學習大會)已經成為有巨大影響力的會議,每年都會為我們帶來很多關於機器學習趨勢與發展方向等有意義的分享。今年的 ICML 有三個討論會都重點討論了遷移學習和

遷移學習(transfer learning)學習(multi-task learning)深度學習(deep learning)概念摘抄

本文在寫作過程中參考了諸多前輩的部落格、論文、筆記等。由於人數太多,在此不一一列出,若有侵權,敬請告知,方便我進行刪改,謝謝!!! 遷移學習(Transfer Learning) 遷移學習出現的背景如下:在一些新興領域很難得到我們需要的大量的訓練資料,另外,傳統的機器學習

遷移學習學習

遷移學習 總結一下,什麼時候遷移學習是有意義的?如果你想從任務A學習並遷移一些知識到任務B,那麼當任務A和任務B都有同樣的輸入時,遷移學習是有意義的。在第一個例子中,A和B的輸入都是影象,在第二個例子中,兩者輸入都是音訊。當任務A的資料比任務多得多時,遷移學習意義更大。所有

深度學習之----學習

介紹   在機器學習(ML)中,通常的關注點是對特定度量進行優化,度量有很多種,例如特定基準或商業 KPI 的分數。為了做到這一點,我們通常訓練一個模型或模型組合來執行目標任務。然後,我們微調這些模型,直到模型的結果不能繼續優化。雖然通常可以通過這種方式使模型達到可接受的效能,但是

智慧駕駛最全最強的無人駕駛技術學習路線

作者:許小巖   來源:AI腦力波 授權 產業智慧官 轉載。近兩年,國內外掀起了一場空前的無人駕

javascript入門經典推薦—新手必備零基礎學習

本書目錄 第一章:  JavaScript語言基礎 第二章:  JavaScript內建物件 第三章:  視窗window物件 第四章:  文件document物件 第五章:  表單form物件 第六章:  History與Navigator物件 第七章:  JavaScr

七月線上 遷移學習 [無遷移,不學習] 完整版

本課程的內容將講述各種遷移學習的方法,包括在同領域不同任務、不同領域任務、資料受限等多場景下的方法,涵蓋有監督、無監督學習等涉及到的遷移學習。同時結合程式碼,我們將看到,如果將在一個數據集上學到的知識/

十九Spring Boot 之資料來源和分散式事務(JTAAtomikosDruidMybatis)

1.事務開始 2.A資料來源insert 3.B資料來源insert 4.報錯 5.事務回滾(A、B資料來源都回滾) 專案目錄 pom.xml <?xml version="1.0" encoding="UTF-8"?> <projec

Java_基礎並發並行同步異步線程的區別

quest 由於 計算機硬件 處理 算法 普通人 spa 進程 減少 1.並發:在同一時間段,位於同一處理器上的多個開啟但未運行完畢的進程,並發進程之間有兩種關系,一種同步另一種互斥。 互斥:進程之間訪問臨界資源時相互排斥的現象 2.並行:位於多個處理器上的多個進程,同一

問答集錦人工智能/機器學習技術在電商場景下的應用

人工智能 阿裏巴巴 機器學習 近年來阿裏不斷運用深度學習、強化學習等人工智能領域的相關知識優化自身電商平臺的搜索引擎和推薦系統,讓其從冷冰冰的系統不斷成長為越來越懂用戶的智能購物助手。  日前,《盡在雙11》人工智能部分執筆人&阿裏技術專家 樂田 與 仁重 就 “人工智能/機器學習技術在電

幹貨JavaScript DOM編程藝術學習筆記4-6

ext 屬性節點 另一個 機器 rep lin bsp 每次 增加 四、案例研究:JavaScript圖片庫 js: function showPic(whichpic){ //取得鏈接 var source=whichpic.getAttribute("hr

angular.jsUI-Router之angular路由學習

分享 www. roo 多個 js框架 https angualrjs nbsp tool AngularJs中的路由,應用比較廣泛,主要是允許我們通過不同的url訪問不同的內容,可實現多視圖的單頁web應用。下面看看具體怎麽使用。 關於路由 通常我們的U

計算機網絡 一個小白的DNS學習筆記 (>﹏<)

網絡 relay 自己的 使用 source media top img rdquo 參考書籍 《計算機網絡-自頂向下》 作者 James F. Kurose DNS的作用 DNS是因特網的目錄服務 DNS是因特網的目錄服務,它提供了主機名到IP地址映

Python + Appium 已解決driver(session)在個class之間復用,執行完一個類的用例,再次執行下個類的用例時不需要初始化

nic bject config com appium client lee session ted py文件的名稱為:appium_config.py 中的寫法如下 # coding=UTF-8 ‘‘‘ Created on 2017.1.13 @author: Lu

編程珠璣第一章生成隨機數隨機取樣的問題

當前 rand 可用 生成 奇數 sel 浪費 print 運行時 一、利用隨機數函數生成隨機數 問題1(《編程珠璣》習題12.1後半段): 給定一個rand(),可以產生從0到RAND_MAX的隨機數,其中RAND_MAX很大(常見值:16位int能表示的最大整數3276

筆記篇最良心的計算幾何學習筆記(一)

變量類型 其他 條件 parallel node ons put 是否 通過 世界以痛吻我, 我卻報之以歌。 開新坑... 雖然不知道這坑要填多久... 文章同步上傳到github... 有想看的可以去看看→_→ *溫馨提示: 看本文之前請務必學習或回顧數學-必修2的解析

筆記篇最良心的計算幾何學習筆記(六)

紅色 online src note 不變 比較 基礎知識 cst 分類 半平面交 github傳送門 簡介 Emmmm學完旋轉卡殼感覺自己已經是個廢人了.. 修整了一個周末, 回來接著跟計算幾何勢力硬幹... (這個周末是不是有點長?) 今天就講講半平面交吧. 請自己回顧

筆記篇最良心的計算幾何學習筆記(二)

完整 size cos 一道 細節問題 avi 參數 cnblogs 關系 依然放上本文的github地址... 作業QwQ 先來說一下上次留下的例題. poj這道題並沒有實數比較模式.. 所以被精度勢力幹翻. 交上去WA掉竟然是因為-0.00和0.00不相等? 根據對拍

筆記篇最良心的計算幾何學習筆記(七)

不一定 source spa hub 掃描 markdown 如何 urn 神奇 動態凸包 本文的github傳送門在這裏~ ====================================================================== 不會凸

筆記篇單調隊列優化dp學習筆記&&luogu2569_bzoj1855股票交♂易

打表 交易 賣出 .... while 變量 計算 原則 spa DP頌 DP之神 聖潔美麗 算法光芒照大地 我們懷著 崇高敬意 跪倒在DP神殿裏 你的復雜 能讓蒟蒻 試圖入門卻放棄 在你光輝 照耀下面 AC真心不容易 dp大概是最經久不衰 亙古不化的算法了吧. 而且有各