1. 程式人生 > >各種 機器學習方法 / 學習範式 匯總

各種 機器學習方法 / 學習範式 匯總

原理 語音合成 可能 深入 系統 dual 成功 信息 www

各種機器學習方法(學習範式)匯總

強化學習

入門資料

《深入淺出強化學習原理入門》. 郭憲等編著. 電子工業出版社

An Introduction to Reinforcement Learning, Sutton and Barto, 1998

Algorithms for Reinforcement Learning, Szepesvari, 2009

特點

  1. 沒有監督數據、只有獎勵信號
  2. 獎勵信號不一定是實時的,而很可能是延後的,有時甚至延後很多
  3. 時間(序列)是一個重要因素
  4. 當前的行為影響後續接收到的數據

對偶學習

微軟亞洲研究院秦濤博士等人在向 NIPS 2016 提交的論文中提出了一種全新的機器學習範式——對偶學習。

入門資料

微軟亞洲研究院秦濤:對偶學習的對稱之美 | 硬創公開課總結. https://zhuanlan.zhihu.com/p/27513847

對偶學習:一種新的機器學習範式,數據標註成本從2000萬美元降到200萬. 新智源. http://www.sohu.com/a/121198568_473283

Di He, Yingce Xia, Tao Qin, Liwei Wang, Nenghai Yu, Tie-Yan Liu, and Wei-Ying Ma, Dual Learning for Machine Translation, NIPS 2016. (https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation )

解決的問題

降低對大規模標註數據的依賴性

深度學習的巨大成功得益於大規模的帶標簽的數據。但是存在兩個局限性:1,人工標註獲取標簽的代價很高;2,在很多任務中沒辦法收集到大規模的標註數據,例如在醫療或小語種間的相互翻譯。

核心思路

很多人工智能的應用涉及兩個互為對偶的任務,例如機器翻譯中從中文到英文翻譯和從英文到中文的翻譯互為對偶、語音處理中語音識別和語音合成互為對偶、圖像理解中基於圖像生成文本和基於文本生成圖像互為對偶、問答系統中回答問題和生成問題互為對偶,以及在搜索引擎中給檢索詞查找相關的網頁和給網頁生成關鍵詞互為對偶。這些互為對偶的人工智能任務可以形成一個閉環,使從沒有標註的數據中進行學習成為可能。

將會對機器學習領域產生很大的影響

第一, 很多深度學習的研究人員認為人工智能和深度學習的下一個突破是從未標註的數據進行學習。

第二, 強化學習在復雜的實際應用中的成功還是比較有限。而對偶學習提供了一種為強化學習獲取獎勵信息的方式,並證實了強化學習在復雜應用(如翻譯)中成功的可能。

遷移學習

入門資料

王晉東. 《遷移學習簡明手冊》. 2018

權威學者

香港科技大學 楊強教授

解決的問題

  1. 有標註的數據不足
  2. 計算能力不足
  3. 個性化需求:進一步提高模型的泛化能力
  4. 特定應用的需求,比如,推薦系統的冷啟動問題

聯合學習

入門資料

《Google研究 | 聯合學習:無需集中存儲訓練數據的協同機器學習》. 微信公眾號:谷歌開發者

解決的問題

標準的機器學習方法需要將訓練數據集中到一臺機器上或一個數據中心內。為了處理此數據,改善服務,需要構建一套安全、強大的雲基礎架構。

通過聯合學習,移動電話可以協同學習共享的預測模型,同時將所有訓練數據保留在設備上,從而無需將數據存儲在雲中,即可進行機器學習。同時,通過將模型訓練引入到設備上,超越了以往使用本地模型預測移動設備的模式。

工作原理

您的設備下載當前模型,通過學習手機中的數據改進模型,然後以小幅更新的形式匯總所做的變更。通過加密通信僅將此模型的更新發送至雲,在雲中,立即與其他用戶更新進行平均,以改進共享模型。所有訓練數據仍保留在您的設備上,雲中未存儲任何個別用戶的更新。

優勢

建立更智能的模型,縮短延遲時間,減小功耗,同時確保隱私性。除了為共享模型提供更新之外,還可以即時使用手機中經過改進的模型,根據您使用手機的方式,提供個性化的體驗。

各種 機器學習方法 / 學習範式 匯總