【強化學習】python 實現 q-learning 例二

阿新 • • 發佈：2018-12-18

問題情境

一個2*2的迷宮，一個入口，一個出口，還有一個陷阱。如圖

這是一個二維的問題，不過我們可以把這個降維，變為一維的問題。

0.相關引數

epsilon = 0.9   # 貪婪度 greedy
alpha = 0.1     # 學習率
gamma = 0.8     # 獎勵遞減值

1.狀態集

探索者的狀態，即其可到達的位置，有4個。所以定義

states = range(4) # 狀態集，從0到3

那麼，在某個狀態下執行某個動作之後，到達的下一個狀態如何確定呢？

def get_next_state(state, action):
     
'''對狀態執行動作後，得到下一狀態'''
    #u,d,l,r,n = -2,+2,-1,+1,0
    if state % 2 != 1 and action == 'r':    # 除最後一列，皆可向右(+1)
        next_state = state + 1
    elif state % 2 != 0 and action == 'l':  # 除最前一列，皆可向左(-1)
        next_state = state -1
    elif state // 2 != 1 and action == 'd': # 除最後一行，皆可向下(+2)
        next_state = state + 2
    elif 
 state // 2 != 0 and action == 'u': # 除最前一行，皆可向上(-2)
        next_state = state - 2
    else:
        next_state = state
    return next_state

2.動作集

探索者處於每個狀態時，可行的動作，只有上下左右4個。所以定義

actions = ['u', 'd', 'l', 'r'] # 動作集。上下左右，也可新增動作'n'，表示停留

那麼，在某個給定的狀態（位置），其所有的合法動作如何確定呢？

def get_valid_actions(state):
     
'''取當前狀態下的合法動作集合，與reward無關！'''
    global actions # ['u','d','l','r','n']
    
    valid_actions = set(actions)
    if state % 2 == 1:                              # 最後一列，則
        valid_actions = valid_actions - set(['r'])  # 去掉向右的動作
    if state % 2 == 0:                              # 最前一列，則
        valid_actions = valid_actions - set(['l'])  # 去掉向左
    if state // 2 == 1:                             # 最後一行，則
        valid_actions = valid_actions - set(['d'])  # 去掉向下
    if state // 2 == 0:                             # 最前一行，則
        valid_actions = valid_actions - set(['u'])  # 去掉向上
    return list(valid_actions)

3.獎勵集

探索者到達每個狀態（位置）時，要有獎勵。所以定義

rewards = [0,0,-10,10] # 獎勵集。到達位置3（出口）獎勵10，位置2（陷阱）獎勵-10，其他皆為0

顯然，取得某狀態state下的獎勵就很簡單了：rewards[state] 。根據state，按圖索驥即可，無需額外定義一個函式。

4.Q table

最重要。Q table是一種記錄狀態-行為值 (Q value) 的表。常見的q-table都是二維的，基本長下面這樣：

（注意，也有3維的Q table）

所以定義

q_table = pd.DataFrame(data=[[0 for _ in actions] for _ in states],
                       index=states, columns=actions)

5.Q-learning演算法

Q-learning演算法的虛擬碼

好吧，是時候實現它了：

# 總共探索300次
for i in range(300):
    # 0.從最左邊的位置開始（不是必要的）
    current_state = 0
    #current_state = random.choice(states)
    while current_state != states[-1]:
        # 1.取當前狀態下的合法動作中，隨機（或貪婪）地選一個作為 當前動作
        if (random.uniform(0,1) > epsilon) or ((q_table.ix[current_state] == 0).all()):  # 探索
            current_action = random.choice(get_valid_actions(current_state))
        else:
            current_action = q_table.ix[current_state].idxmax() # 利用（貪婪）
        # 2.執行當前動作，得到下一個狀態（位置）
        next_state = get_next_state(current_state, current_action)
        # 3.取下一個狀態所有的Q value，待取其最大值
        next_state_q_values = q_table.ix[next_state, get_valid_actions(next_state)]
        # 4.根據貝爾曼方程，更新 Q table 中當前狀態-動作對應的 Q value
        q_table.ix[current_state, current_action] += alpha * (rewards[next_state] + gamma * next_state_q_values.max() - q_table.ix[current_state, current_action])
        # 5.進入下一個狀態（位置）
        current_state = next_state

print('\nq_table:')
print(q_table)

可以看到，與例一的程式碼一模一樣，不差一字！

6.環境及其更新

這裡的環境貌似必須用到GUI，有點麻煩；而在命令列下，我又不知如何實現。所以暫時算了，不搞了。

7.完整程式碼

'''
最簡單的四個格子的迷宮
---------------
| start |     |
---------------
|  die  | end |
---------------

每個格子是一個狀態，此時都有上下左右4個動作

作者：hhh5460
時間：20181217
'''

import pandas as pd
import random

epsilon = 0.9   # 貪婪度 greedy
alpha = 0.1     # 學習率
gamma = 0.8     # 獎勵遞減值

states = range(4)       # 0, 1, 2, 3 四個狀態
actions = list('udlr') # 上下左右 4個動作。還可新增動作'n'，表示停留
rewards = [0,0,-10,10] # 獎勵集。到達位置3（出口）獎勵10，位置2（陷阱）獎勵-10，其他皆為0


q_table = pd.DataFrame(data=[[0 for _ in actions] for _ in states],
                       index=states, columns=actions)

def get_next_state(state, action):
    '''對狀態執行動作後，得到下一狀態'''
    #u,d,l,r,n = -2,+2,-1,+1,0
    if state % 2 != 1 and action == 'r':    # 除最後一列，皆可向右(+1)
        next_state = state + 1
    elif state % 2 != 0 and action == 'l':  # 除最前一列，皆可向左(-1)
        next_state = state -1
    elif state // 2 != 1 and action == 'd': # 除最後一行，皆可向下(+2)
        next_state = state + 2
    elif state // 2 != 0 and action == 'u': # 除最前一行，皆可向上(-2)
        next_state = state - 2
    else:
        next_state = state
    return next_state
        

def get_valid_actions(state):
    '''取當前狀態下的合法動作集合
    global reward
    valid_actions = reward.ix[state, reward.ix[state]!=0].index
    return valid_actions
    '''
    # 與reward無關！
    global actions
    valid_actions = set(actions)
    if state % 2 == 1:                              # 最後一列，則
        valid_actions = valid_actions - set(['r'])  # 無向右的動作
    if state % 2 == 0:                              # 最前一列，則
        valid_actions = valid_actions - set(['l'])  # 無向左
    if state // 2 == 1:                             # 最後一行，則
        valid_actions = valid_actions - set(['d'])  # 無向下
    if state // 2 == 0:                             # 最前一行，則
        valid_actions = valid_actions - set(['u'])  # 無向上
    return list(valid_actions)
    
    
# 總共探索300次
for i in range(300):
    # 0.從最左邊的位置開始（不是必要的）
    current_state = 0
    #current_state = random.choice(states)
    while current_state != states[-1]:
        # 1.取當前狀態下的合法動作中，隨機（或貪婪）地選一個作為 當前動作
        if (random.uniform(0,1) > epsilon) or ((q_table.ix[current_state] == 0).all()):  # 探索
            current_action = random.choice(get_valid_actions(current_state))
        else:
            current_action = q_table.ix[current_state].idxmax() # 利用（貪婪）
        # 2.執行當前動作，得到下一個狀態（位置）
        next_state = get_next_state(current_state, current_action)
        # 3.取下一個狀態所有的Q value，待取其最大值
        next_state_q_values = q_table.ix[next_state, get_valid_actions(next_state)]
        # 4.根據貝爾曼方程，更新 Q table 中當前狀態-動作對應的 Q value
        q_table.ix[current_state, current_action] += alpha * (rewards[next_state] + gamma * next_state_q_values.max() - q_table.ix[current_state, current_action])
        # 5.進入下一個狀態（位置）
        current_state = next_state

print('\nq_table:')
print(q_table)

8.效果圖

9.補充

又搞了一個numpy版本，比pandas版本的快了一個數量級！！程式碼如下

'''
最簡單的四個格子的迷宮
---------------
| start |     |
---------------
|  die  | end |
---------------

每個格子是一個狀態，此時都有上下左右停5個動作
'''

# 作者：hhh5460
# 時間：20181218

import numpy as np


epsilon = 0.9   # 貪婪度 greedy
alpha = 0.1     # 學習率
gamma = 0.8     # 獎勵遞減值

states = range(4)       # 0, 1, 2, 3 四個狀態
actions = list('udlrn') # 上下左右停 五個動作
rewards = [0,0,-10,10]  # 獎勵集。到達位置3（出口）獎勵10，位置2（陷阱）獎勵-10，其他皆為0


# 給numpy陣列的列加標籤，參考https://cloud.tencent.com/developer/ask/72790
q_table = np.zeros(shape=(4, ), # 坑二：這裡不能是(4,5)!!
                   dtype=list(zip(actions, ['float']*5)))
                   #dtype=[('u',float),('d',float),('l',float),('r',float),('n',float)])
                   #dtype={'names':actions, 'formats':[float]*5})

def get_next_state(state, action):
    '''對狀態執行動作後，得到下一狀態'''
    #u,d,l,r,n = -2,+2,-1,+1,0
    if state % 2 != 1 and action == 'r':    # 除最後一列，皆可向右(+1)
        next_state = state + 1
    elif state % 2 != 0 and action == 'l':  # 除最前一列，皆可向左(-1)
        next_state = state -1
    elif state // 2 != 1 and action == 'd': # 除最後一行，皆可向下(+2)
        next_state = state + 2
    elif state // 2 != 0 and action == 'u': # 除最前一行，皆可向上(-2)
        next_state = state - 2
    else:
        next_state = state
    return next_state
        

def get_valid_actions(state):
    '''取當前狀態下的合法動作集合，與reward無關！'''
    global actions # ['u','d','l','r','n']
    
    valid_actions = set(actions)
    if state % 2 == 1:                              # 最後一列，則
        valid_actions = valid_actions - set(['r'])  # 去掉向右的動作
    if state % 2 == 0:                              # 最前一列，則
        valid_actions = valid_actions - set(['l'])  # 去掉向左
    if state // 2 == 1:                             # 最後一行，則
        valid_actions = valid_actions - set(['d'])  # 去掉向下
    if state // 2 == 0:                             # 最前一行，則
        valid_actions = valid_actions - set(['u'])  # 去掉向上
    return list(valid_actions)
    
    
for i in range(1000):
    #current_state = states[0] # 固定
    current_state = np.random.choice(states,1)[0]
    while current_state != 3:
        if (np.random.uniform() > epsilon) or ((np.array(list(q_table[current_state])) == 0).all()):  # q_table[current_state]是numpy.void型別，只能這麼操作！！
            current_action = np.random.choice(get_valid_actions(current_state), 1)[0]
        else:
            current_action = actions[np.array(list(q_table[current_state])).argmax()] # q_table[current_state]是numpy.void型別
        next_state = get_next_state(current_state, current_action)
        next_state_q_values = [q_table[next_state][action] for action in get_valid_actions(next_state)]
        q_table[current_state][current_action] = rewards[next_state] + gamma * max(next_state_q_values)
        current_state = next_state
        
        
print('Final Q-table:')
print(q_table)

【強化學習】python 實現 q-learning 例二

問題情境一個2*2的迷宮，一個入口，一個出口，還有一個陷阱。如圖這是一個二維的問題，不過我們可以把這個降維，變為一維的問題。 0.相關引數 epsilon = 0.9 # 貪婪度 greedy alpha = 0.1 # 學習率 gamma = 0.8 #

【強化學習】python 實現 q-learning 例三

本文作者：hhh5460 本文地址：https://www.cnblogs.com/hhh5460/p/10139738.html 例一的程式碼是函式式編寫的，這裡用面向物件的方式重新擼了一遍。好處是，更便於理解環境(Env)、個體(Agent)之間的關係。有緣看到的朋友，自己慢慢體會吧。 0.效果

【強化學習】python 實現 q-learning 例四（例二改寫）

陷阱 data img 入口 turn pda state save isod 將例二改寫成面向對象模式，並加了環境！不過更新環境的過程中，用到了清屏命令，play()的時候，會有點問題。learn()的時候可以勉強看到:P 0.效果圖 1.完整代碼相對於例一，

【強化學習】python 實現 q-learning 迷宮通用模板

本文作者：hhh5460 本文地址：https://www.cnblogs.com/hhh5460/p/10145797.html 0.說明這裡提供了二維迷宮問題的一個比較通用的模板，拿到後需要修改的地方非常少。對於任意的二維迷宮的 class Agent，只需修改三個地方：MAZE_

【強化學習】python 實現 saras lambda 例一

本文作者：hhh5460 本文地址：https://www.cnblogs.com/hhh5460/p/10147265.html 將例一用saras lambda演算法重新擼了一遍，沒有參照任何其他人的程式碼。僅僅根據虛擬碼，就擼出來了。感覺已真正理解了saras lambda演算法。記錄如下 0.

【深度學習】Python實現2層神經網路的誤差反向傳播法學習

前言基於計算圖的反向傳播詳解一篇中，我們通過計算圖的形式詳細介紹了構建神經網路需要的層，我們可以將其視為元件，接下來我們只需要將這些元件組合起來就可以實現誤差反向傳播法。首先我們回顧下神經網路的學習步驟如下：從訓練資料中隨機選擇一部分資料（mini-batch）

【深度學習】Python實現基於數值微分的神經網路的學習

回顧 \quad\quad 在之前的神經網路的學習過程一篇中，我們介紹瞭如何獲取批量資料、損失函式、梯度以及梯度下降

【深度學習】python實現簡單神經網路以及手寫數字識別案例

前言 \quad \qu

【深度學習】Python實現簡單神經網路

Python簡單神經網路環境介紹定義神經網路的框架初始化建立網路節點和連結簡單均勻分佈隨機初始權重正態分佈初始權重編寫查詢函式階段性測試編寫訓練函式

【強化學習】用pandas 與 numpy 分別實現 q-learning, saras, saras(lambda)演算法

本文作者：hhh5460 本文地址：https://www.cnblogs.com/hhh5460/p/10159331.html 特別感謝：本文的三幅圖皆來自莫凡的教程 https://morvanzhou.github.io/ pandas是基於numpy的，但是兩者之間的操作有區別

【轉】【強化學習】Deep Q Network(DQN)演算法詳解

原文地址：https://blog.csdn.net/qq_30615903/article/details/80744083 DQN（Deep Q-Learning）是將深度學習deeplearning與強化學習reinforcementlearning相結合，實現了從

【機器學習演算法-python實現】決策樹-Decision tree（1）資訊熵劃分資料集

1.背景決策書演算法是一種逼近離散數值的分類演算法，思路比較簡單，而且準確率較高。國際權威的學術組織，資料探勘國際會議ICDM （the IEEE International Con

【機器學習演算法-python實現】KNN-k近鄰演算法的實現（附原始碼）

下載地址 kNN演算法及例項原始碼實現#coding=utf-8 ''' Created on Sep 16, 2010 kNN: k Nearest Neighbors Input: inX: vector to compare to existing dataset (1xN)

【機器學習演算法-python實現】邏輯迴歸的實現(LogicalRegression)

1.背景知識在剛剛結束的天貓大資料s1比賽中，邏輯迴歸是大家都普遍使用且效果不錯的一種演算法。（1）迴歸先來說說什麼是迴歸，比如說我們有兩類資料，各有50十個點組成，當我門把這些點畫出

【機器學習演算法-python實現】svm支援向量機(3)—核函式

1.背景知識前面我們提到的資料集都是線性可分的，這樣我們可以用SMO等方法找到支援向量的集合。然而當我們遇到線性不可分的資料集時候，是不是svm就不起作用了呢？這裡用到了一種方法叫做核函式，它將低

【機器學習演算法-python實現】K-means無監督學習實現分類

''' @author: hakuri ''' from numpy import * import matplotlib.pyplot as plt def loadDataSet(fileName): #general function to parse tab -delimited float

【Python學習】Python實現的FTP上傳和下載功能

一、背景最近公司的一些自動化操作需要使用Python來實現FTP的上傳和下載功能。因此參考網上的例子，擼了一段程式碼來實現了該功能，下面做個記錄。二、ftplib介紹 Python中預設安裝的ftplib模組定義了FTP類，其中函式有限，可用來實現

【機器學習】Python 快速入門筆記

python 筆記基礎 Python 快速入門筆記Xu An 2018-3-7 1、Python print#在Python3.X中使用print（）進行輸出，而2.x中使用（）會報錯 print("hello world") print('I\'m a

【強化學習】MOVE37-Introduction（導論）

本課作為導論，大致普及了一下機器學習和強化學習的概念和用途。其次，捎帶介紹了一下最常見的監督學習和非監督學習。對機器學習稍有了解的同學們，對這兩個概念應該不陌生。如果對此毫無概念的同學們，可以看我下面的簡單說明。機器學習（Machine Learning) 首先，我們要明白，所謂的機器學習就是試圖找出

【S-排序】python實現八大排序演算法之4-希爾排序ShellSort

希爾排序ShellSort 起源：直接插入法的改進演算法。希爾排序(Shell Sort)是插入排序的一種。也稱縮小增量排序，是直接插入排序演算法的一種更高效的改進版本。希爾排序是非穩定排序演算

【強化學習】python 實現 q-learning 例二

0.相關引數

1.狀態集

2.動作集

3.獎勵集

4.Q table

5.Q-learning演算法

6.環境及其更新

7.完整程式碼

8.效果圖

9.補充

相關推薦