白話文學強化學習系列
白話文學強化學習-0
由於本人也還只是菜鳥,希望大佬輕噴~
老古話說的好,溫故而知新,決定把之前所學的感想記錄下來,
便於之後的複習瀏覽。由於本人語文不行,加之機器學習領域專業術語太多,所以想到用大家都比較能懂的通俗的語言去解釋下強化學習這個機器學習的子領域也是本人最喜歡最關注任務今後最有前途的學科~
相關推薦
白話文學強化學習系列
白話文學強化學習-0 由於本人也還只是菜鳥,希望大佬輕噴~ 老古話說的好,溫故而知新,決定把之前所學的感想記錄下來, 便於之後的複習瀏覽。由於本人語文不行,加之機器學習領域專業術語太多,所以想到用大
Udacity強化學習系列(二)—— 馬爾科夫決策過程(Markov Decision Processes)
說到馬爾科夫Markov,大家可能都不陌生,陌生的[連結往裡走](https://baike.baidu.com/item/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E8
強化學習系列5:有模型的策略迭代方法
1. 策略迭代演算法 這裡策略迭代使用的是表格法,基本步驟是: 用字典儲存每個s的v值 根據v值來選骰子 策略迭代的步驟為: 初始化 V
強化學習系列1:強化學習簡介
2015年10月,AlphaGo在和歐洲冠軍進行的圍棋賽上獲得了5:0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。 1. 基本概念 強化學習(reinforcement learning)是用來解決連續決策問題的一種方法。針對的模型是馬
強化學習系列3:Open AI的baselines和Spinning Up
1. Baselines簡介 Baselines是一個傳統強化學習的資源庫,github地址為:https://github.com/openai/baselines Baselines需要python3的環境,建議使用3.6版本。安裝openmpi和相關庫(tensorflow、gym
強化學習系列7:無模型的蒙特卡洛法
1. 無模型問題 在很多時候,我們無法得知模型資訊,比如前幾節的蛇棋中,我們不知道棋盤梯子的資訊和骰子的資訊,用數學化的方法來說,就是我們用於決策的智慧體不知道狀態轉移概率 P
強化學習系列(一):強化學習簡介
一、強化學習是什麼? 首先,我們思考一下學習本身,當一個嬰兒在玩耍時可能會揮舞雙手,左看右看,沒有人來指導他的行為,但是他和外界直接通過了感官進行連線。感知給他傳遞了外界的各種資訊,包括知識等。學習的過程貫穿著我們人類的一生,當我們開車或者說話時,都觀察了環境
強化學習系列 6 : Actor Critic
Actor 和 Critic, 他們都能用不同的神經網路來代替 . 在 Policy Gradients 中, 現實中的獎懲會左右 Actor 的更新情況. Policy Gradients 也是靠著這個來獲取適宜的更新. 那麼何時會有獎懲這種資訊能不能被學習呢? 這看起來不就是 以值為基礎的強化學習方法做過
Reinforcement Learning強化學習系列之五:值近似方法Value Approximation
引言 前面說到了強化學習中的蒙特卡洛方法(MC)以及時序差分(TD)的方法,這些方法針對的基本是離散的資料,而一些連續的狀態則很難表示,對於這種情況,通常在強化學習裡有2中方法,一種是針對value function的方法,也就是本文中提到的值近似(value
白話文學強化學習-3
馬爾可夫決策模型 書接上回,上次說完了折扣率γ\gammaγ,最後的公式是 Gt=Rt+1+γRt+2+γ2Rt+3+...+γn−1RnG_t=R_{t+1} + \gamma R_{t+2} +
強化學習系列(六):時間差分演算法(Temporal-Difference Learning)
一、前言 在強化學習系列(五):蒙特卡羅方法(Monte Carlo)中,我們提到了求解環境模型未知MDP的方法——Monte Carlo,但該方法是每個episode 更新一次(episode-by-episode)。本章介紹一種單步更新的求解環境模型未知M
強化學習系列(五):蒙特卡羅方法(Monte Carlo)
一、前言 在強化學習系列(四):動態規劃中,我們介紹了採用DP (動態規劃)方法求解environment model 已知的MDP(馬爾科夫決策過程),那麼當environment model資訊不全的時候,我們會採用什麼樣的方法求解呢?蒙特卡洛方法(Mon
Reinforcement Learning強化學習系列之一:model-based learning
前言 在機器學習和深度學習坑裡呆了有一些時日了,在阿里實習過程中,也感覺到了工業界和學術界的一些迥異,比如強化學習在工業界用的非常廣泛,而自己之前沒有怎麼接觸過強化學習的一些知識,所以感覺還是要好好的補一補更新一下自己的知識庫,以免被AI時代拋棄。 強化
Reinforcement Learning強化學習系列之二:MC prediction
引言 這幾個月一直在忙找工作和畢業論文的事情,部落格擱置了一段時間,現在稍微有點空閒時間,又啃起了強化學習的東西,今天主要介紹的是強化學習的免模型學習free-model learning中的最基礎的部分蒙特卡洛方法(Monte Carlo),並以21點遊戲作
白話文學強化學習-1
強化學習介紹 強化學習(reinforcement learning),又稱再勵學習、評價學習,是一種重要的機器學習方法,在智慧控制機器人及分析預測等領域有許多應用。 強化學習用人話來解釋的話,假設CV(計算機視覺)和NLP(自然語言處理)是教會計算機如何看和
強化學習系列之九:Deep Q Network (DQN)
我們終於來到了深度強化學習。 1. 強化學習和深度學習結合 機器學習=目標+表示+優化。目標層面的工作關心應該學習到什麼樣的模型,強化學習應該學習到使得激勵函式最大的模型。表示方面的工作關心資料表示成什麼樣有利於學習,深度學習是最近幾年興
(重磅)深度強化學習系列之(7)-----強化學習《獎勵函式》的設計和設定(reward shaping)
概述 前面已經講了好幾篇關於強化學習的概述、演算法(DPG->DDPG),也包括對環境OpenAI gym的安裝,baseline演算法的執行和填坑,雖然講了這麼多,演算法也能夠正常執行還取得不錯的效果,但是一直以來忽略了一個非常重要的話題,那就是強化學
【機器學習系列文章】第5部分:強化學習
目錄 你做到了! 結束思考 探索和開發。馬爾可夫決策過程。Q-learning,政策學習和深度強化學習。 “我只吃了一些巧克力來完成最後一節。” 在有監督的學習中,訓練資料帶有來自某些神聖的“主管”的答案。如果只有這樣的生活! 在強化學
【深度學習介紹系列之二】——深度強化學習:卷積神經網路
介紹深度學習強化學習中的卷積神經網路 卷積神經網路的大致介紹我們在前一篇文章深度強化學習(一)中已經說過了。本篇文章會詳細介紹卷積神經網路的起源,發展和應用。本篇文章我們會從以下幾個方面介紹: 1)神經網路是什麼 2)卷積神經網路的起源與經典結構 3)卷積網路的
深度強化學習及其在自動駕駛中的應用: DRL&ADS系列之(2): 深度強化學習DQN原理
專欄系列文章規劃 上一篇文章《DRL&ADS系列之(1): 強化學習概述》已經講解了利用神經網路近似值函式的方法,即: V̂ (s,w)≈Vπ(s)q̂ (s,a,w)≈qπ(s,a)(1)(1)V^(s,w)≈Vπ(s)q^(s,a,w)≈