[RL學習篇][#3] 自動學習grid_mdp最佳的策略

阿新 • • 發佈：2018-05-17

roo dep mina __init__ self targe upa num dom

本文修改 policy_iteration.py程式，讓他可以執行[#1]的程式，並找出最佳動作。

 1 # /bin/python
 2 import numpy;
 3 import random;
 4 import gym;
 5 #from grid_mdp import Grid_Mdp
 6 
 7 
 8 class Policy_Value:
 9     def __init__(self, grid_mdp):
10         self.v = [0.0 for i in range(len(grid_mdp.env.states) + 1)] # 初始變數v <-- 值函數
 
11 
12         self.pi = dict()
13         for state in grid_mdp.env.states:
14             if state in grid_mdp.env.terminate_states: continue
15             self.pi[state] = grid_mdp.env.action_s[0] #初始pi <-- 策略pi
16 
17     def policy_improve(self, grid_mdp):
18 
19         for state in 
 grid_mdp.env.states:
20             grid_mdp.env.setAction(state)  # upate state
21             if state in grid_mdp.env.terminate_states: continue
22 
23             a1 = grid_mdp.env.action_s[0]
24             s, r, t, z = grid_mdp.env._step(a1)
25             v1 = r + grid_mdp.env.gamma * self.v[s]
 
26 
27             for action in grid_mdp.env.action_s:
28                 s, r, t, z = grid_mdp.env._step(action)
29                 if v1 < r + grid_mdp.env.gamma * self.v[s]: # 當action有更好的值，則更新動作
30                     a1 = action
31                     v1 = r + grid_mdp.env.gamma * self.v[s]
32 
33             self.pi[state] = a1   # 紀錄最佳動作
34 
35     def policy_evaluate(self, grid_mdp):
36         for i in range(1000):
37             delta = 0.0
38             for state in grid_mdp.env.states:
39                 grid_mdp.env.setAction(state) # upate state
40                 if state in grid_mdp.env.terminate_states: continue
41                 action = self.pi[state]
42 
43                 s, r, t, z = grid_mdp.env.step(action)
44                 new_v = r + grid_mdp.env.gamma * self.v[s]
45                 delta += abs(self.v[state] - new_v)
46                 self.v[state] = new_v
47 
48             if delta < 1e-6:
49                 break;
50 
51     def policy_iterate(self, grid_mdp):
52         for i in range(100):
53             self.policy_evaluate(grid_mdp);
54             self.policy_improve(grid_mdp);
55 
56 
57 if __name__ == "__main__":
58     #grid_mdp = Grid_Mdp()
59     env = gym.make(‘GridWorld-v0‘)
60 
61     policy_value = Policy_Value(env)
62     policy_value.policy_iterate(env)
63     print("value:")
64     for i in range(1, 6):
65         print("%d:%f\t" % (i, policy_value.v[i]), )
66     print("")
67 
68     print("policy:")
69     for i in range(1, 6):
70         print("%d->%s\t" % (i, policy_value.pi[i]), )
71     print("")

執行結果如下:

/home/lsa-dla/anaconda3/envs/tensorflow/bin/python /home/lsa-dla/PycharmProjects/grid_mdp/lsa_test2.py
WARN: Environment ‘<class ‘gym.envs.classic_control.grid_mdp.GridEnv‘>‘ has deprecated methods. Compatibility code invoked.
value:
1:0.640000
2:0.800000
3:1.000000
4:0.800000
5:0.640000

policy:
1->e
2->e
3->s
4->w
5->w

Process finished with exit code 0

reference:

[1] Reinforcement_Learning_Blog/2.強化學習系列之二:模型相關的強化學習/

[RL學習篇][#3] 自動學習grid_mdp最佳的策略

roo dep mina __init__ self targe upa num dom 本文修改 policy_iteration.py程式，讓他可以執行[#1]的程式，並找出最佳動作。 1 # /bin/python 2 import numpy;

自己動手實現深度學習框架-3 自動分批訓練, 緩解過擬合

程式碼倉庫: https://github.com/brandonlyg/cute-dl 目標為Session類增加自動分批訓練模型的功能, 使框架更好用。新增緩解過擬合的演算法: L2正則化, 隨機丟棄。實現自動分批訓練設計方案增加Dataset類負責管理資料集, 自動對資料分批。在Ses

【強化學習篇】--強化學習案例詳解一

AC 沒有技術技術分享 ron png strong http mage 一、前述本文通過一個案例來講解Q-Learning 二、具體 1、案例假設我們需要走到5房間。轉變為如下圖：先構造獎勵，達到5，即能夠走得5的action則說明獎勵比較高設置成100，沒有

sklearn 學習筆記-3 機器學習理論基礎

本章主要知識點：過擬合和欠擬合的概念模型的成本及成本函式的含義評價一個模型的好壞的標準學習曲線，以及用學習曲線來對模型進行診斷通用模型優化方法其他模型評價標準 ##3.1過擬合和欠擬合過擬合就是模型能很好的擬合訓練樣

神經網路與機器學習第3版學習筆記-第1章 Rosenblatt感知器

神經網路與機器學習第3版學習筆記 -初學者的筆記，記錄花時間思考的各種疑惑第一章 Rosenblatt感知器１、第32頁 1.1 為什麼如果第n次迭代時的內積存在符號錯誤，第n+1次迭代內積的符號就會正確？已知 $

學習mybatis-3 step by step 篇一

odi png environ factor 數據不能 val 集成開發環境 start 一、搭建簡單mybatis-3環境(詳細的中文文檔) 集成開發環境：IDEA 項目：maven + mybatis-3 1、創建maven結構項目含簡單，如下圖：下一步後，填寫

完全用Deepin Linux娛樂、工作、學習（3）-- 無線網卡及藍牙設備驅動篇

系統/運維 Linux 娛樂 1、異常說明在前面木子已經講到了關於顯卡驅動及CPU微碼補丁更新，今天木子要講的是關於適配藍牙及無線網卡設備的驅動問題，它不僅僅適用於新驅動的安裝，也適用於驅動異常的修復。默認情況下木子的筆記本安裝Deepin Linux後是自帶驅動的，只是在折騰的過

誰說菜鳥不會資料分析（工具篇）----- 學習筆記3（資料展現和日報月報自動化）

1、資料視覺化的意義互動性：使用者能夠方便地通過互動介面實現資料的管理、計算與預測多維性：可從資料的多個屬性或變數對資料進行切片、鑽取、旋轉等，以此剖析資料，從而能多角度、多方面分析資料可視性：資料可用影象、二維圖形、三維圖形和動畫等方式來展現，並可對其模式和相互關係進行

rust學習筆記基礎篇3--陣列，切片,元組的變數宣告(霜之小刀)

rust學習筆記基礎篇3–陣列，切片,元組的變數宣告(霜之小刀) 歡迎轉載和引用，若有問題請聯絡若有疑問，請聯絡 Email : [email protected] QQ:2279557541 陣列指的是一組型別必須相同，個數不變的組合切

licode學習之編譯篇--3

上一篇中，提示找不到NICE庫，先看看CMakList裡面吧 [[email protected] erizo]# pwd /home/test/licode-master/erizo [[email protected] erizo]# vim src/CMakeLists.tx

HTML5學習第3篇-HTML5的前世今生和設計理念

引言想要深入的瞭解一個人就必須要知道這個人的過往經歷和成長背景，因為是這些經歷的疊加成就了這個人現在的樣子。就像樑寧老師說的，一個人所表現出的樣子就是這個人過往經歷的疊加。學技術也一樣，想深入的瞭解一門技術也需要知道技術的前世今生和設計理念。知道這些才知道語言真正的生命力，知道語言的背

CODE學習筆記七——自動操作3 : 可程式設計定址與跳轉

目錄上回我們構造了一個可以自動進行加法操作，並且可以自動儲存的機器；雖然結構看上去很清晰，但是程式碼與資料分別存在兩個RAM中，在另一個角度看來是有些冗餘的；我們可以嘗試著把程式碼與資料共同存放在一個RAM裡，儘管在管理不當的情況下會造成比較嚴重的問題

誰說菜鳥不會資料分析（工具篇）----- 學習筆記3（資料準備、處理）

1、資料準備：一維表的列標籤是欄位，二維表的列標籤是資料資料表的設計要求資料表由標題行和資料部分組成第一行是標的列標題（欄位名），列標題不能重複第二行是資料部分，資料部分的每一行資料稱為一個記錄，並且資料部分不允許出現空白行和空白列

python機器學習0基礎到入門的心得----入門篇3 樸素貝葉斯

什麼是樸素貝葉斯整個形式只做最原始, 最簡單的假設上一章要求分類器做出多數表決, 給出該樣本到底屬於哪一類, 不過分類器有時會產生錯誤結果, 這時候可以要求分類器給出一個最優的類別猜測結果, 也就是選擇高概率的決策結果, 同時給出這個猜測的概率是多少

機器學習方法篇(3)------決策樹入門

● 每週一言學習，是為了更好地活著。導語決策樹是一種樹形分類模型，每個非葉子結點相當於IF條件語句，該模型通過逐個判定特徵所屬類別對樣本進行分類。那麼，決策樹模型具體是如何實現的？決策樹本著直觀講解的原則，我們儘量不用公式，先從一個例子入

JavaScript學習篇（3）

函式：也可稱之為方法，預定義的反覆使用的程式碼塊。定義函式：語法是function定義，以下是一個實際例子：在這裡還用到了，上次提到的三目運算子。其中function是定義函式，後面跟著的 validatePwd（）和compare()是函式名稱，在這裡定義以後可以在後面的語句中直接呼叫。另外，在小括

(3)PHP 學習筆記進階篇 from imooc

可以使用下面程式碼實現： $fruit = array("蘋果","香蕉","菠蘿"); 注意陣列的鍵是從0開始的。可以使用print_r($fruit);語句輸出陣列鍵及對應的值。 <?php //建立一個索引陣列，索引陣列的鍵是“0”，值是“蘋果” $

java學習筆記————本質篇3

9.獲取資源相關方法： 1.獲取真實路徑： servletContext.getRealPath("/WEB-INF/b.txt") ====> String realPath

sharepoint 2016 學習系列篇(14)-自定義列表應用篇-(3)列表資料的新增,修改,刪除操作

前面新增完列表的欄位之後，接下來介紹列表資料的新增,修改,刪除操作，不需要開發，就能實現資料的新增，修改，刪除等操作。重新返回到列表的http://192.168.1.73:7003/Lists/UserInfo,如下：列表建立完成後，點選新建(new item)，進入新建介

cocos2dx 3.2 學習篇之六(精靈運動，自定義運動軌跡（太極八卦））

好了，今天想要講的是如何讓精靈按照自己定義的路徑去運動，官方給我們了一個action類，裡面有很多運動的型別，比如bezier曲線運動，比如jump運動等等，設計好了運動之後，我們只要讓精靈調運runAction()即可。本人呢是十足的秦時明月粉絲，特別喜

[RL學習篇][#3] 自動學習grid_mdp最佳的策略

相關推薦