強化學習學習總結（三）——QLearning思維決策

阿新 • • 發佈：2018-12-12

一、思維決策構架

import numpy as np
import pandas as pd

class QLearningTable:
    # 初始化
    def __init__(self, actions, learning_rate=0.01, reward_decay=0.9, e_greedy=0.9):

    # 選行為
    def choose_action(self, observation):

    # 學習更新引數
    def learn(self, s, a, r, s_):

    # 檢測 state 是否存在
    def check_state_exist(self, state):

二、函式實現

1.初始化

actions：所有行為
epsilon：貪婪率e_greesy
lr：學習率α
gamma: 獎勵衰減γ
q_table: Q表

  def __init__(self, actions, learning_rate=0.01, reward_decay=0.9, e_greedy=0.9):
        self.actions = actions  # a list
        self.lr = learning_rate # 學習率
        self.gamma = reward_decay   # 獎勵衰減
        self.epsilon = e_greedy     # 貪婪度
        self.q_table = pd.DataFrame(columns=self.actions, dtype=np.float64)   # 初始 q_table

2.選行為choose_action

if：在貪婪率內則選擇最大（防止數值相同 choice亂序）
else：隨機選擇

 def choose_action(self, observation):
        self.check_state_exist(observation) # 檢測本 state 是否在 q_table 中存在

        # 選擇 action
        if np.random.uniform() < self.epsilon:  # 選擇 Q value 最高的 action
            state_action = self.q_table.loc[observation, :]
            # 同一個 state, 可能會有多個相同的 Q action value, 所以我們亂序一下
            action = np.random.choice(state_action[state_action == np.max(state_action)].index)

        else:   # 隨機選擇 action
            action = np.random.choice(self.actions)

        return action

3.學習更新引數（更新Q表）

  def learn(self, s, a, r, s_):
        self.check_state_exist(s_)  # 檢測 q_table 中是否存在 s_ 


        q_predict = self.q_table.loc[s, a]    # 獲取Q預測值
        if s_ != 'terminal':                  # 獲取真實值
            q_target = r + self.gamma * self.q_table.loc[s_, :].max()  # 下個state不是終止符
        else:
            q_target = r  # 下個 state 是終止符

         # 更新Q表：更新對應的state-action 值
        self.q_table.loc[s, a] += self.lr * (q_target - q_predict)

4.檢測Q表中有無當前state—action值

如果還沒有當前 state, 那我我們就插入一組全 0 資料, 當做這個 state 的所有 action 初始 values.

def check_state_exist(self, state):
        if state not in self.q_table.index:
            # append new state to q table
            self.q_table = self.q_table.append(
                pd.Series(
                    [0]*len(self.actions),
                    index=self.q_table.columns,
                    name=state,
                )
            )

強化學習學習總結（三）——QLearning思維決策

一、思維決策構架 import numpy as np import pandas as pd class QLearningTable: # 初始化 def __init__(self, actions, learning_rate=0.01, rew

機器學習演算法總結（三）

1、決策樹決策樹是通過一系列規則對資料進行分類的過程。它提供一種在什麼條件下會得到什麼值的類似規則的方法。決策樹分為分類樹和迴歸樹兩種，分類樹對離散變數做決策樹，迴歸樹對連續變數做決策樹。 1.2 決策樹的學習過程一棵決策樹的生成過程主要分為以下3個部

JSP學習總結（三）

vol actor time 為什麽 pso ack sta instance 9.png 四、為什麽jsp就是servlet? 　　打開Tomcat服務器的work目錄，找到jsp文件翻譯的java文件。類聲明如下 package org.apache.jsp; im

springMVC學習總結（三）數據綁定

springmvc core nts 循環 ack sta attribute servle 設置 springMVC學習總結（三）數據綁定一、springMVC的數據綁定，常用綁定類型有： 1、servlet三大域對象： HttpServletRequest Http

JavaSE學習總結（三）——Java語言編程練習、格式化字符與常量

數據 nts 編程 () 功能替換 pri stream 第幾天目錄一、變量、常量、字面量二、銀行利率為5%，問存款100美元5年的收益細節？三、格式化 3.1、printf格式化輸出 3.2、String.format 3.2.1、日期類型 3.2.2、

springMVC學習總結（三） --springMVC重定向

form mit 簡單訪問 intern dir html isp pack 根據springMVC學習總結（一） --springMVC搭建搭建項目在com.myl.controller包下創建一個java類WebController。在jsp子文件夾下創建一個視

OO學習總結（三）

簡單 manager ets types mat UC requires represent 出現規格化設計軟件工程的重要目標之一是實現軟件開發過程各階段的自動化，軟件自動化的前提是形式化,包括軟件需求規格的形式化、軟件設計規格的形式化和算法描述的形式化。 Z語言由牛

python學習總結（三），python的變量類型

變量對象的引用 ict asr 字符串連接 number 包括區別通用 1.python中每個變量的申賦值都不需要類型聲明，每個變量在內存中創建都包括變量的標識、名稱和數據等信息。 2. 每個變量在使用前都必須賦值，變量賦值後該變量才會被創建。 3. 允許同時為多個變

[學習總結] python語言學習總結（三）

函式閉包定義延伸了作用域的函式(能訪問定義體之外定義的非全域性變數作用共享變數的時候避免使用了不安全的全域性變數允許將函式與某些資料關聯起來,類似於簡化版面向物件程式設計相同程式碼每次生成的閉包,其延伸的作用域都彼此獨立(計數器,登錄檔) 函式的一部分行為在編寫時無法預知

salesforce零基礎學習（九十）專案中的零碎知識點小總結（三）

本次的內容其實大部分人都遇到過，也知道解決方案。但是因為沒有牢記於心，導致問題再次出現還是花費了一點時間去排查了原因。在此記錄下來，好記性不如爛筆頭，爭取下次發現類似的現象可以直接就知道原因。廢話少說，進入正題。我們在Goods__c表中有一個欄位型別為Picklist，欄位值有以下內容：我們想要

微信開發學習總結（三）——訊息管理（2）-接受普通訊息和被動回覆使用者訊息

上一節內容：微信開發學習總結（三）——訊息管理（1） https://blog.csdn.net/qq_29914837/article/details/82903594 訊息管理具有的各個子模組功能，現在我們將一個詳細介紹如何使用一、接受普通訊息介面介紹 1.1

微信開發學習總結（三）——訊息管理（1）

上一節內容：微信開發學習總結（二）——微信開發環境準備（2） https://blog.csdn.net/qq_29914837/article/details/82896861 接收普通訊息當普通微信使用者向公眾賬號發訊息時，微信伺服器將POST訊息的XML資料包到開

c++學習總結（三）——類與物件

一、心得感悟 c語言的課程學習後，開始c++的學習，首先就是學習類。在學習類時，類的使用與c語言有著極大的差別，一開始學習十分別扭。c語言的學習直接定義幾個形參、函式就可以寫程式了；而到了c++學習，關於類，首先必須定義類。具有相同性質和功能的東西構成的集合，通常歸成一

JAVASE8流庫Stream學習總結（三）

3、聚合（終止流操作）前面我們已經看到過如何建立流和轉換流了，現在是時候讓流終止，並返回些有用的東西給我們了，這個過程就叫做聚合，也叫約簡。一、Optional類講到這個，我們先從 Optional類講起，什麼是Optional類，O

Linux 學習總結（三）

一. yum 命令 1.列出所有可更新的軟體清單命令：yum check-update 2.更新所有軟體命令：yum update 3.僅安裝指定的軟體命令：yum install <package_name> 4.僅更新指定的軟體命令：yum update <package_nam

資料庫學習總結（三）——新增、更新與刪除資料

新增、更新與刪除資料新增資料更新資料刪除資料新增資料 insert語句中指定欄位名 insert into 表名（欄位名1，欄位名2，…） values (值1，值2，…)；注意：欄位名與欄位值的順序，型別必須互相匹

MyBatis學習總結（三）——多表關聯查詢與動態SQL

一、多表關聯查詢表與表之間有三種常見的關聯關係，分別是一對一，一對多與多對多關係，MyBatis直接提供一對一與一對多的關聯關係，可以通過間接的方式實現多對多關聯。 1.1、一對一關係 1.1.1、執行環境假定一個員工（emp）擁有一個登入使用者（user），員工與使用者表之間是一對一關係：

JAVA學習總結（三）

Maven Maven是一個專案管理和綜合工具。Maven提供了開發人員構建一個完整的生命週期框架。開發團隊可以自動完成專案的基礎工具建設，Maven使用標準的目錄結構和預設構建生命週期。在多個開發團隊環境時，Maven可以設定按標準在非常短的時間裡完成配

Java 8實戰（Java 8 in action）學習總結（三）

Streams API可以表達複雜的資料處理查詢。常用的流操作如下表：你可以使用filter、distinct、skip和limit對流做篩選和切片。你可以使用map和flatMap提取或轉換流中的元素。你可以使用findFirst和findAny方法查詢流中的元素。你可以allMatch、none

JavaFX學習筆記——用法技巧總結（三）

如何建立響應式元件問題在不同的解析度下，介面的大小始終固定，導致在小螢幕下的文字圖片大小適中，而在大螢幕下顯得過小解決方法使用dimension類 Dimension screensize = Toolkit.getDefaultToolkit

強化學習學習總結（三）——QLearning思維決策

一、思維決策構架

二、函式實現

相關推薦