Q-learning演算法實現

阿新 • • 發佈：2019-02-10

create grids for c in range(0, MAZE_W * UNIT, UNIT): x0, y0, x1, y1 = c, 0, c, MAZE_H * UNIT self.canvas.create_line(x0, y0, x1, y1) for r in range(0, MAZE_H * UNIT, UNIT): x0, y0, x1, y1 = 0, r, MAZE_H * UNIT, r self.canvas.create_line(x0, y0, x1, y1) # create

origin origin = np.array([20, 20]) # hell hell1_center = origin + np.array([UNIT * 2, UNIT]) self.hell1 = self.canvas.create_rectangle( hell1_center[0] - 15, hell1_center[1] - 15, hell1_center[0] + 15, hell1_center[1] + 15, fill='black'

) # hell hell2_center = origin + np.array([UNIT, UNIT * 2]) self.hell2 = self.canvas.create_rectangle( hell2_center[0] - 15, hell2_center[1] - 15, hell2_center[0] + 15, hell2_center[1] + 15, fill='black') # create oval oval_center = origin + UNIT * 2

self.oval = self.canvas.create_oval( oval_center[0] - 15, oval_center[1] - 15, oval_center[0] + 15, oval_center[1] + 15, fill='yellow') # create red rect self.rect = self.canvas.create_rectangle( origin[0] - 15, origin[1] - 15, origin[0] + 15, origin[1] + 15, fill='red') # pack all self.canvas.pack() def reset(self): self.update() time.sleep(0.5) self.canvas.delete(self.rect) origin = np.array([20, 20]) self.rect = self.canvas.create_rectangle( origin[0] - 15, origin[1] - 15, origin[0] + 15, origin[1] + 15, fill='red') # return observation return self.canvas.coords(self.rect) def step(self, action): s = self.canvas.coords(self.rect) base_action = np.array([0, 0]) if action == 0: # up if s[1] > UNIT: base_action[1] -= UNIT elif action == 1: # down if s[1] < (MAZE_H - 1) * UNIT: base_action[1] += UNIT elif action == 2: # right if s[0] < (MAZE_W - 1) * UNIT: base_action[0] += UNIT elif action == 3: # left if s[0] > UNIT: base_action[0] -= UNIT self.canvas.move(self.rect, base_action[0], base_action[1]) # move agent s_ = self.canvas.coords(self.rect) # next state # reward function if s_ == self.canvas.coords(self.oval): reward = 1 done = True elif s_ in [self.canvas.coords(self.hell1), self.canvas.coords(self.hell2)]: reward = -1 done = True else: reward = 0 done = False return s_, reward, done def render(self): time.sleep(0.1) self.update()

Q-learning演算法實現

用Q-Learning演算法實現無人車智慧代理程式

Q-learning演算法實現1（matlab）

Q-learning演算法實現

用Q-learning演算法實現自動走迷宮機器人

強化學習之Q-learning演算法

Q-learning演算法實踐

強化學習(五)：Sarsa演算法與Q-Learning演算法

DQN（Deep Q-learning）入門教程（三）之蒙特卡羅法演算法與Q-learning演算法

【強化學習】用pandas 與 numpy 分別實現 q-learning, saras, saras(lambda)演算法

Q-learning簡明實例Java代碼實現

使用gym庫Classic control實現deep Q learning

強化學習（七）時序差分離線控制演算法Q-Learning

【強化學習】python 實現 q-learning 例二

【強化學習】python 實現 q-learning 例三

【強化學習】python 實現 q-learning 例四（例二改寫）

【強化學習】python 實現 q-learning 迷宮通用模板

【強化學習筆記】6.4 基於值函式逼近的強化學習方法-TD Q-learning線性逼近程式碼實現

Reinforcement Learning Q-learning 算法學習-2

CS294-112 深度強化學習秋季學期（伯克利）NO.6 Value functions introduction NO.7 Advanced Q learning

強化學習（八）價值函數的近似表示與Deep Q-Learning

Q-learning演算法實現

相關推薦