1. 程式人生 > >強化學習--與環境因素互動

強化學習--與環境因素互動

與環境因素互動

  無論是監督學習還是無監督學習,都不會著重於“資料實際上來自哪裡,以及當機器學習模型生成結果時,究竟發生了什麼”這點,一般地,我們在初期抓取大量資料,然後在不再與環境發生互動的情況下進行模式識別。這樣的學習過程,都發生在演算法和環境斷開以後,這稱作離線學習(offline learning)。
  強化學習(reinforcement learning) 和對抗學習(adversarial learning),這是兩個會明確考慮與環境互動的問題。

會帶來的問題和思考

  我們想要的是智慧體(agent),而不僅僅是預測模型。意味著我們還要考慮選擇恰當的動作(action),而動作會影響到環境,以及今後的觀察到的資料。一旦考慮到要與周圍環境互動,一系列的問題接踵而來。
  記得我們之前的行為嗎?
  願意幫助我們嗎?比如,一個能識別使用者口述內容的語音識別器。
  想要對抗我們?比如,一個對抗裝置,類似垃圾郵件過濾(針對垃圾郵件傳送者)或遊戲玩家(針對對手)?
  啥都不管(就像大多數情況)?
  會動態地改變立場(隨著時間表現穩定 vs 變化)?
  最後的這個問題,引出了協變數轉移(covariate shift) 的問題(當訓練和測試資料不同時)。這個坑想必不少人都經歷過,平時的作業都是助教出題,而到了考試,題目卻換成由課程老師編寫。