強化學習Q-leaning演算法之走迷宮

阿新 • • 發佈：2018-11-26

來自於莫凡大神的強化學習教程，今天學習了走迷宮的小例子。網站網址是：https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/2-2-A-q-learning/

程式碼如下，一些地方我做了註釋：

分三個檔案

1.maze_env.py 用thinker實現了迷宮的佈局

#!/usr/bin/python3
# -*- coding:utf-8 -*-

"""
Reinforcement learning maze example.
Red rectangle:          explorer.
Black rectangles:       hells       [reward = -1].
Yellow bin circle:      paradise    [reward = +1].
All other states:       ground      [reward = 0].
This script is the environment part of this example. The RL is in RL_brain.py.
View more on my tutorial page: https://morvanzhou.github.io/tutorials/
"""


import numpy as np
import time
import sys
if sys.version_info.major == 2:  #如果版本號是2
    import Tkinter as tk
else:
    import tkinter as tk


UNIT = 40   # pixels   畫素
MAZE_H = 4  # grid height
MAZE_W = 4  # grid width


class Maze(tk.Tk, object):
    def __init__(self):
        super(Maze, self).__init__()
        self.action_space = ['u', 'd', 'l', 'r']                #行為
        self.n_actions = len(self.action_space)                  #行為數
        self.title('maze')
        self.geometry('{0}x{1}'.format(MAZE_H * UNIT, MAZE_H * UNIT))
        self._build_maze()

    def _build_maze(self):
        self.canvas = tk.Canvas(self, bg='white',
                           height=MAZE_H * UNIT,
                           width=MAZE_W * UNIT)

        # create grids
        for c in range(0, MAZE_W * UNIT, UNIT):
            x0, y0, x1, y1 = c, 0, c, MAZE_W * UNIT
            self.canvas.create_line(x0, y0, x1, y1)   #畫一條從(x0,y0)到(x1,y1)的線
        for r in range(0, MAZE_H * UNIT, UNIT):
            x0, y0, x1, y1 = 0, r, MAZE_H * UNIT, r
            self.canvas.create_line(x0, y0, x1, y1)

        # create origin
        origin = np.array([20, 20])

        # hell            #畫第一個黑色正方形
        hell1_center = origin + np.array([UNIT * 2, UNIT])
        self.hell1 = self.canvas.create_rectangle(
            hell1_center[0] - 15, hell1_center[1] - 15,
            hell1_center[0] + 15, hell1_center[1] + 15,
            fill='black')
        # hell            #畫第二個黑色正方形
        hell2_center = origin + np.array([UNIT, UNIT * 2])
        self.hell2 = self.canvas.create_rectangle(
            hell2_center[0] - 15, hell2_center[1] - 15,
            hell2_center[0] + 15, hell2_center[1] + 15,
            fill='black')

        # create oval     #畫黃色的正方形
        oval_center = origin + UNIT * 2
        self.oval = self.canvas.create_oval(
            oval_center[0] - 15, oval_center[1] - 15,
            oval_center[0] + 15, oval_center[1] + 15,
            fill='yellow')

        # create red rect   #畫紅色的正方形
        self.rect = self.canvas.create_rectangle(
            origin[0] - 15, origin[1] - 15,
            origin[0] + 15, origin[1] + 15,
            fill='red')

        # pack all
        self.canvas.pack()

    def reset(self):
        self.update()
        time.sleep(0.5)
        self.canvas.delete(self.rect)
        origin = np.array([20, 20])
        self.rect = self.canvas.create_rectangle(
            origin[0] - 15, origin[1] - 15,
            origin[0] + 15, origin[1] + 15,
            fill='red')
        # return observation
        return self.canvas.coords(self.rect)

    def step(self, action):
        s = self.canvas.coords(self.rect)
        base_action = np.array([0, 0])
        if action == 0:   # up
            if s[1] > UNIT:
                base_action[1] -= UNIT    #減40
        elif action == 1:   # down
            if s[1] < (MAZE_H - 1) * UNIT:
                base_action[1] += UNIT     #加40
        elif action == 2:   # right
            if s[0] < (MAZE_W - 1) * UNIT:
                base_action[0] += UNIT    #右移40
        elif action == 3:   # left
            if s[0] > UNIT:               #左移40
                base_action[0] -= UNIT

        self.canvas.move(self.rect, base_action[0], base_action[1])  # move agent

        s_ = self.canvas.coords(self.rect)  # next state

        # reward function
        if s_ == self.canvas.coords(self.oval):
            reward = 1
            done = True
            s_ = 'terminal'
        elif s_ in [self.canvas.coords(self.hell1), self.canvas.coords(self.hell2)]:
            reward = -1
            done = True
            s_ = 'terminal'
        else:
            reward = 0
            done = False

        return s_, reward, done

    def render(self):
        time.sleep(0.1)
        self.update()

2.RL_brain.py 實現Q-learning演算法的主體：

#!/usr/bin/python3
# -*- coding:utf-8 -*-

"""
This part of code is the Q learning brain, which is a brain of the agent.
All decisions are made in here.
View more on my tutorial page: https://morvanzhou.github.io/tutorials/
"""

import numpy as np
import pandas as pd


class QLearningTable:
    def __init__(self, actions, learning_rate=0.01, reward_decay=0.9, e_greedy=0.9):
        '''
        :param actions:    行為
        :param learning_rate: 學習率, 來決定這次的誤差有多少是要被學習的
        :param reward_decay: 是折扣因子，表示時間的遠近對回報的影響程度，為0表示之看當前狀態採取行動的reward。 
        :param e_greedy: 是用在決策上的一種策略, 比如 epsilon = 0.9 時, 就說明有90% 的情況我會按照 Q 表的最優值選擇行為, 10% 的時間使用隨機選行為
        '''
        self.actions = actions  # a list
        self.lr = learning_rate
        self.gamma = reward_decay
        self.epsilon = e_greedy
        self.q_table = pd.DataFrame(columns=self.actions, dtype=np.float64)

    def choose_action(self, observation):
        self.check_state_exist(observation)
        # action selection
        if np.random.uniform() < self.epsilon:
            # choose best action
            state_action = self.q_table.loc[observation, :]
            # some actions may have the same value, randomly choose on in these actions
            action = np.random.choice(state_action[state_action == np.max(state_action)].index)
        else:
            # choose random action
            action = np.random.choice(self.actions)
        return action

    def learn(self, s, a, r, s_):
        self.check_state_exist(s_)
        q_predict = self.q_table.loc[s, a]
        if s_ != 'terminal':
            q_target = r + self.gamma * self.q_table.loc[s_, :].max()  # next state is not terminal
        else:
            q_target = r  # next state is terminal
        self.q_table.loc[s, a] += self.lr * (q_target - q_predict)  # update

    def check_state_exist(self, state):
        if state not in self.q_table.index:
            # append new state to q table
            self.q_table = self.q_table.append(
                pd.Series(
                    [0]*len(self.actions),
                    index=self.q_table.columns,
                    name=state,
                )
            )

3.run_this.py 實現演算法更新

#!/usr/bin/python3
# -*- coding:utf-8 -*-

from maze_env import Maze
from RL_brain import QLearningTable


def update():
    for episode in range(100):
        # initial observation
        observation = env.reset()

        while True:
            # fresh env
            env.render()

            # RL choose action based on observation
            action = RL.choose_action(str(observation))

            # RL take action and get next observation and reward
            observation_, reward, done = env.step(action)

            # RL learn from this transition
            RL.learn(str(observation), action, reward, str(observation_))

            # swap observation
            observation = observation_

            # break while loop when end of this episode
            if done:
                break
    print(RL.q_table)
    RL.q_table.to_csv("./1.csv")

    # end of game
    print('game over')
    env.destroy()

if __name__ == "__main__":
    env = Maze()
    RL = QLearningTable(actions=list(range(env.n_actions)))
    #print(RL.q_table)

    env.after(100, update)
    #print("hahah")
    #print(RL.q_table)
    env.mainloop()

如果要檢視莫凡大神的github，可以去：https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow/tree/master/contents/2_Q_Learning_maze

強化學習Q-leaning演算法之走迷宮

來自於莫凡大神的強化學習教程，今天學習了走迷宮的小例子。網站網址是：https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/2-2-A-q-learning/ 程式碼如下，一些地方我做了註釋

C++廣度優先搜尋演算法之走迷宮

走迷宮題目描述一個網格迷宮由n行m列的單元格組成，每個單元格要麼是空地（用1表示），要麼是障礙物（用0表示）。你的任務是找一條從起點到終點的最短移動序列。用U、D、L、R分別表示往上、下、左、右移動到相鄰單元格。不能走到障礙物上，也不能走出迷宮。起點和終

強化學習 Sarsa-lambda演算法走迷宮小例子

Sarsa-lambda是Sarsa演算法的一種提速的方法。如果說 Sarsa 和 Qlearning 都是每次獲取到 reward, 只更新獲取到 reward 的前一步. 那 Sarsa-lambda 就是更新獲取到 reward 的前 lambda 步. lambda 是在 [0,

演算法學習——遞推演算法之擺動數列

演算法描述已知遞推數列： a(1)=1 a(2i)=a(i)+1 a(2i+1)=a(i)+a(i+1) (i為正整數) 求該數列的第n項，以及前n項中的最大值為多少，其n為多少？演算法思路採用遞推的方法，使用一維陣列，從2開始遞推，

機器學習十大演算法之決策樹（詳細）

什麼是決策樹？如何構建決策樹？ ID3 C4.5 CART 決策樹的優缺點及改進什麼是決策樹？決策樹是運用於分類的一種樹結構，其本質是一顆由多個判斷節點組成的樹，其中的每個內部節點代表對某一屬性的一次測試，每條邊代表一個測試結果，而葉節點代表某個類或類的分佈。屬於有監督學習核心思想：

強化學習-Q-learning

原文:https://www.jianshu.com/p/29db50000e3f?utm_medium=hao.caibaojian.com&utm_source=hao.caibaojian.com 1、Q-learning例子假設有這樣的房間如果將房間表示成點，然

王權富貴：強化學習Q-learning

參考文章：（感謝辛勤翻譯的小哥哥小姐姐誒）作者: peghoty 出處: http://blog.csdn.net/peghoty/article/details/9361915 本文是對 http://mnemstudio.org/path-fin

強化學習Q-learning 和 Sarsa

Q-learning Q表示的是，在狀態s下采取動作a能夠獲得的期望最大收益，R是立即獲得的收益，而未來一期的收益則取決於下一階段的動作。更新公式 Q(S,A) ← (1-α)*Q(S,A) + α*[R + γ*maxQ(S',a)], alpha 是學習率，

機器學習十大演算法之CART

一、概述 CART（ Classification And Regression Tree）即分類迴歸樹演算法，它是決策樹的一種實現，通常決策樹主要有三種實現，分別是ID3演算法，CART演算法和C4.5演算法。CART演算法是一種二分遞迴分割技術，把當前樣本劃分為兩個子樣

強化學習 Q學習原理及例子（離散）附matlab程式

原文地址：http://mnemstudio.org/path-finding-q-learning-tutorial.htm 這篇教程通過簡單且易於理解的例項介紹了Q-學習的概念知識，例子描述了一個智慧體通過非監督學習的方法對未知的環境進行學習。假設我們的樓層內共有5個房間，

【強化學習筆記】4.4 無模型的強化學習方法-蒙特卡羅演算法與重要性取樣程式碼實現

#!/usr/bin/env python # -*- coding:utf-8 -*- #import gym import random import numpy as np class GriDMdp: def __init__(s):

【強化學習筆記】4.2 無模型的強化學習方法-蒙特卡羅演算法程式設計實現

本文給出基於蒙特卡洛的強化學習方法（隨機策略計算狀態值函式）和基於蒙特卡洛的強化學習方法（ε−greedy策略計算狀態行為值函式）兩種方法的程式設計實現。問題模型是迷宮問題。針對一個迷宮問題，設計基於蒙特卡洛的強化學習方法。迷宮圖示見下圖，其中紅色

遺傳演算法在走迷宮遊戲中的應用

前言遺傳(GA)演算法是一個非常有意思的演算法，因為他利用了生物進化理論的知識進行問題的求解。演算法的核心就是把擁有更好環境適應度的基因遺傳給下一代，這就是其中的關鍵的選擇操作，遺傳演算法整體的階段分為選擇，交叉和變異操作，選擇操作和變異操作在其中又是比較重要的步驟。

【強化學習筆記】4.3 無模型的強化學習方法-蒙特卡羅演算法與重要性取樣

異策略與重要性取樣因為異策略中的行動策略和目標策略不一樣，也就是說行動策略產生的資料分佈與目標策略的資料分佈存在偏差，即即行動策略的軌跡概率分佈和改善策略的軌跡概率分佈不一樣，因此在使用資料進行目標策略評估的時候需要考慮該影響，常用的方法是重要性取樣

陳俊龍：從深度強化學習到寬度強化學習—結構，演算法，機遇及挑戰

來源：AI科技評論摘要：如何賦予機器自主學習的能力，一直是人工智慧領域的研究熱點。強化學習與寬度

強化學習Sarsa演算法走迷宮小例子

Sarsa演算法： Sarsa演算法與Q-learing演算法的不同之處是什麼？一個簡單的解釋，引用莫凡大神的話：他在當前 state 已經想好了 state 對應的 action, 而且想好了下一個 st

強化學習之Q-learning演算法

Q-learning演算法以前在阿里雲上面搭了一個wordpress部落格，最近快畢業了，阿里雲真的很貴，所以轉到CSDN上寫部落格，主要是為了方便以後查詢。 Q-learning演算法是強化學習的一種演

漫談深度強化學習之手寫Deep Q-Network解決迷宮問題

1. Q-Learning回顧上一期我們講了Q-Learning以及Sarsa的演算法流程，同時我們還手寫了基於Q-Learning以及Sarsa來解決OpenAI gym中的FrozenLake問題。今天，我們將藉助神經網路來重新解決這個問題。（FrozenLake問題簡單來

資料結構經典演算法學習之老鼠走迷宮02

老鼠走迷宮基於上一遍博文的基礎上，稍作修改，顯示所有可達到的最近路線（這裡指的最近就是不存在到達出口處還在別的出口來回走，額。。。可能沒表達清楚，讀者可以自己跑一下程式看看就明白了）程式碼實現： p

強化學習之猜猜我是誰--- Deep Q-Network ^_^

導致 line d+ callbacks ima new div pan dense Deep Q-Network和Q-Learning怎麽長得這麽像，難道它們有關系？沒錯，Deep Q-Network其實是Q-Learning融合了神經網絡的一種方法這次我們以打飛機的

強化學習Q-leaning演算法之走迷宮

相關推薦