人工智慧常見學習任務
阿新 • • 發佈:2020-12-04
強化學習
- 任務與獎賞
- 概念:機器處於某一環境中,在當前狀態在做出動作導致狀態的改變而得到環境的獎勵反饋。通過獎勵反饋的不斷學習,總結出較好的策略。
- 策略的優略取決於長期執行某一策略後得到的累積獎賞,而強化學習的目的就是要找到能是長期累積獎賞最大化的策略。
- K-搖臂賭博機(為使得最大化單步強化學習)
- 僅探索法:對所有搖臂進行探測,能很好地估計每個搖臂的獎賞,但是會失去最優的機會。
- 僅利用法:一直使用目前最優搖臂,沒有很好地估計搖臂的期望獎賞,很可能找不到全域性的最優搖臂。
E-貪心
:利用一個概率進行探索和利用的折中,以E的概率進行探索,以概率進行利用。softmax
:基於當前已知的搖臂平均獎賞來對探索和利用進行折中。當各搖臂平均獎賞相當時,各搖臂被選的概率也相當;當有些搖臂的平均獎賞明顯高於其他時,被選取的概率也更高。
- 有模型學習(多步強化學習)
- 假設任務對應的馬爾可夫決策過程均為已知,即機器已對環境進行了模擬,能在機器內部模擬出環境相同或者相似的情況。即在狀態下執行動作轉移到的概率是已知的,而該轉移所帶來的獎賞也是已知的。
- 策略評估策略改進策略迭代與值迭代
- 策略評估:
- T步累積獎賞
- γ折扣累積獎賞
- 策略評估:
-
免模型學習
環境的轉移概率、獎賞函式往往很難得知,學習演算法不依賴於環境建模,則稱為“免模型學習"
- 蒙特卡羅強化學習:多次“取樣”,然後求取平均累積獎賞來作為期望累積獎賞的近似
- 時序差分學習:結合了動態規劃與蒙特卡羅方法的思想,能做到更高效的免模型學習
-
值函式近似
-
模仿學習
從範例中進行學習
- 直接模仿學習:直接模仿人類專家的“狀態-動作” 對,推匯出獎賞函式。
- 逆強化學習:設計獎賞函式往往相當困難,從人類專家提供的範例資料中反推出獎賞函式有助於解決該問題。
元學習
- 定義:
Meta Learning
又稱為Learning to learn
,它不學習如何解決一個特定的問題,但可以成功學習如何解決多個任務。每當它學會解決一個新的任務,它就越有能力解決其他新的任務。
- 如分類問題中,在
Meta training
階段將資料集分解為不同的meta task
,去學習類別變化的情況下模型的泛化能力,在Mate Testing
階段,面對全新的類別,不需要變動已有的模型,就可以完成分類。
- 元學習的兩級:
- 快速地獲得每個任務中的知識
- 較慢地提取所有任務中學到的資訊
小樣本學習
遷移學習
- 深度學習的資料假設
- 目前的資料和將來的資料有相同的特徵空間且具有相同的分佈
- 然而,現實中上述條件不可能成立。為了實現在研究某一領域缺乏資料,而且另一個領域具有足夠的訓練資料,且後者的資料分佈和特徵空間不同於前者,這時,可以利用遷移學習,來避免花費大量昂貴的標記資料成本。
-
定義
把之前任務中學習到的知識和技能應用到新的任務中的能力
-
遷移學習的分類
例項遷移學習法Instance-transfer |
思想:根據某個相似度匹配原則從源域資料集中挑選出和目標域資料相似度比較高的例項,並把這些例項遷移到目標域中幫助目標域模型的學習,從而解決目標域中有標籤樣本不足或者無標籤樣本的學習問題。 | 1️⃣基於boosting提升技術的例項遷移學習方法 2️⃣遷移稀疏分層概率自組織圖 3️⃣bagging整合方法和聚類演算法相結合 |
---|---|---|
特徵遷移學習法Feature-representation-transfer |
思想:在源域和目標域之間尋找典型特徵代表來進一步弱化兩個域之間的差異從而實現知識的跨領域遷移和複用 |