【強化學習筆記】4.4 無模型的強化學習方法-蒙特卡羅演算法與重要性取樣程式碼實現

阿新 • • 發佈：2019-01-11

#!/usr/bin/env python
# -*- coding:utf-8 -*-

#import gym
import random
import numpy as np

class GriDMdp:
    def __init__(s):
        s.gamma = 0.9
        s.epsilon = 0.1
        s.states = range(1,26) #×´Ì¬¿Õ¼ä
        s.actions = ['n', 'e', 's', 'w'] #¶¯×÷¿Õ¼ä
        s.terminate_states = {15:1.0, 4:-1.0 
, 9:-1.0, \
            11:-1.0, 12:-1.0, 23:-1.0, 24:-1.0, 25:-1.0} #½áÊø×´Ì¬
        s.trans = {} #×´Ì¬ÏÂµÄ¶¯×÷¿Õ¼ä
        for state in s.states:
            if not state in s.terminate_states:
                s.trans[state] = {}
        s.trans[1]['e'] = 2
        s.trans[1]['s'] = 6
        s.trans[2 
]['e'] = 3 
        s.trans[2]['w'] = 1
        s.trans[2]['s'] = 7
        s.trans[3]['e'] = 4
        s.trans[3]['w'] = 2
        s.trans[3]['s'] = 8
        s.trans[5]['w'] = 4
        s.trans[5]['s'] = 10
        s.trans[6]['e'] = 7
        s.trans[6]['s'] = 11
        s.trans[6]['n'] = 1
        s.trans[7 
]['e'] = 8
        s.trans[7]['w'] = 6 
        s.trans[7]['s'] = 12
        s.trans[7]['n'] = 2
        s.trans[8]['e'] = 9
        s.trans[8]['w'] = 7 
        s.trans[8]['s'] = 13
        s.trans[8]['n'] = 3
        s.trans[10]['w'] = 9
        s.trans[10]['s'] = 15
        s.trans[13]['e'] = 14
        s.trans[13]['w'] = 12 
        s.trans[13]['s'] = 18
        s.trans[13]['n'] = 8
        s.trans[14]['e'] = 15
        s.trans[14]['w'] = 13
        s.trans[14]['s'] = 19
        s.trans[14]['n'] = 9
        s.trans[16]['e'] = 17
        s.trans[16]['s'] = 21
        s.trans[16]['n'] = 11
        s.trans[17]['e'] = 18
        s.trans[17]['w'] = 16 
        s.trans[17]['s'] = 22
        s.trans[17]['n'] = 12
        s.trans[18]['e'] = 19
        s.trans[18]['w'] = 17 
        s.trans[18]['s'] = 23
        s.trans[18]['n'] = 13
        s.trans[19]['e'] = 20
        s.trans[19]['w'] = 18 
        s.trans[19]['s'] = 24
        s.trans[19]['n'] = 14
        s.trans[20]['w'] = 19
        s.trans[20]['s'] = 25
        s.trans[20]['n'] = 15
        s.trans[21]['e'] = 22
        s.trans[21]['n'] = 16
        s.trans[22]['e'] = 23
        s.trans[22]['w'] = 21
        s.trans[22]['n'] = 17

        s.rewards = {} #½±Àø
        for state in s.states:
            s.rewards[state] = {}
            for action in s.actions:
                s.rewards[state][action] = 0
                if state in s.trans and action in s.trans[state]:
                    next_state = s.trans[state][action]
                    if next_state in s.terminate_states:
                        s.rewards[state][action] = s.terminate_states[next_state]
        s.pi = {} #²ßÂÔ
        for state in s.trans:
            s.pi[state] = random.choice(s.trans[state].keys())
        s.last_pi = s.pi.copy()

        s.v = {} #×´Ì¬Öµº¯Êý
        for state in s.states:
            s.v[state] = 0.0
    def get_random_action(s, state):
        s.pi[state] = random.choice(s.trans[state].keys())
        return s.pi[state]

    def transform(s, state, action):
        next_state = state
        state_reward = 0
        is_terminate = True
        return_info = {}

        if state in s.terminate_states:
            return next_state, state_reward, is_terminate, return_info
        if state in s.trans:    
            if action in s.trans[state]:
                next_state = s.trans[state][action]
        if state in s.rewards:
            if action in s.rewards[state]:
                state_reward = s.rewards[state][action]
        if not next_state in s.terminate_states:
            is_terminate = False
        return next_state, state_reward, is_terminate, return_info

    def print_states(s):
        for state in s.states:
            if state in s.terminate_states:
                print "*",
            else:
                print round(s.v[state], 2),
            if state % 5 == 0:
                print "|"

def epsilon_greey(state_action_value_dic, state, epsilon):
    action_list = state_action_value_dic[state].keys()
    len_action = len(action_list) 
    action_prob = [epsilon / float(len_action)] * len_action
    max_val = float('-inf') 
    max_idx = -1
    for idx in range(len_action):
        action = action_list[idx]
        state_action_value = state_action_value_dic[state][action][1]
        if state_action_value > max_val:
            max_val = state_action_value
            max_idx = idx
    if max_idx < 0:
        return np.random.choice(action_list),action_prob[0]
    else:
        action_prob[max_idx] += (1 - epsilon)
        epsilon_greey_action = np.random.choice(action_list, p=action_prob)
        return epsilon_greey_action, action_prob[max_idx]

def monte_carlo_normal_important_sample(grid_mdp):
    "action-strategy is epsilon_greey strategy, target-strategy is greey strategy"
    state_action_value_dic = {}
    for iter_idx in range(100000):
#print "-----------------------"
        one_sample_list = []
        state = random.choice(grid_mdp.states)
        while(state in grid_mdp.terminate_states):
            state = random.choice(grid_mdp.states)
        sample_end = False
        while sample_end != True:
            if not state in state_action_value_dic:
                state_action_value_dic[state] = {}
            # choose epsilon_greey strategy
            for action in grid_mdp.trans[state]:
                if not action in state_action_value_dic[state]:
                    state_action_value_dic[state][action] = [0.0, 0.0]    
            action, prob = epsilon_greey(state_action_value_dic, state, grid_mdp.epsilon)
            next_state, state_reward, is_terminate, return_info = grid_mdp.transform(state, action)
            one_sample_list.append((state, action, state_reward, prob))
            state = next_state
            sample_end = is_terminate

        #compute state_action_value
        G = 0.0
        W = 1.0
#print one_sample_list
        for idx in range(len(one_sample_list)-1, -1, -1):
            one_sample = one_sample_list[idx]
            state = one_sample[0]
            action = one_sample[1]
            state_reward = one_sample[2]
            prob = one_sample[3]
            if not state in state_action_value_dic:
                state_action_value_dic[state] = {}
            if not action in state_action_value_dic[state]:
                state_action_value_dic[state][action] =[0.0, 0.0]
            G = state_reward +  grid_mdp.gamma * G
            state_action_value_dic[state][action][0] += 1
            state_action_value_dic[state][action][1] += ((W * G - state_action_value_dic[state][action][1]) / state_action_value_dic[state][action][0])
            W = W * (1.0 / prob) 
        if iter_idx % 10000 == 0:
            print "-"*18
            for state in sorted(state_action_value_dic.keys()):
                for action in sorted(state_action_value_dic[state]):
                        print state,action,state_action_value_dic[state][action]

def monte_carlo_weighted_important_sample(grid_mdp):
    "action-strategy is epsilon_greey strategy, target-strategy is greey strategy"
    state_action_value_dic = {}
    for iter_idx in range(100000):
#print "-----------------------"
        one_sample_list = []
        state = random.choice(grid_mdp.states)
        while(state in grid_mdp.terminate_states):
            state = random.choice(grid_mdp.states)
        sample_end = False
        while sample_end != True:
            if not state in state_action_value_dic:
                state_action_value_dic[state] = {}
            # choose epsilon_greey strategy
            for action in grid_mdp.trans[state]:
                if not action in state_action_value_dic[state]:
                    state_action_value_dic[state][action] = [0.0, 0.0]    
            action, prob = epsilon_greey(state_action_value_dic, state, grid_mdp.epsilon)
            next_state, state_reward, is_terminate, return_info = grid_mdp.transform(state, action)
            one_sample_list.append((state, action, state_reward, prob))
            state = next_state
            sample_end = is_terminate

        #compute state_action_value
        G = 0.0
        W = 1.0
#print one_sample_list
        for idx in range(len(one_sample_list)-1, -1, -1):
            one_sample = one_sample_list[idx]
            state = one_sample[0]
            action = one_sample[1]
            state_reward = one_sample[2]
            prob = one_sample[3]
            if not state in state_action_value_dic:
                state_action_value_dic[state] = {}
            if not action in state_action_value_dic[state]:
                state_action_value_dic[state][action] =[0.0, 0.0] #the first is C
            G = state_reward +  grid_mdp.gamma * G
            state_action_value_dic[state][action][0] += W
            state_action_value_dic[state][action][1] += (W* (G - state_action_value_dic[state][action][1]) / state_action_value_dic[state][action][0])
            W = W * (1.0 / prob) 
        if iter_idx % 10000 == 0:
            print "-"*18
            for state in sorted(state_action_value_dic.keys()):
                for action in sorted(state_action_value_dic[state]):
                        print state,action,state_action_value_dic[state][action]


grid_mdp = GriDMdp()
monte_carlo_normal_important_sample(grid_mdp)
monte_carlo_weighted_important_sample(grid_mdp)

【強化學習筆記】4.4 無模型的強化學習方法-蒙特卡羅演算法與重要性取樣程式碼實現

#!/usr/bin/env python # -*- coding:utf-8 -*- #import gym import random import numpy as np class GriDMdp: def __init__(s):

【強化學習筆記】4.3 無模型的強化學習方法-蒙特卡羅演算法與重要性取樣

異策略與重要性取樣因為異策略中的行動策略和目標策略不一樣，也就是說行動策略產生的資料分佈與目標策略的資料分佈存在偏差，即即行動策略的軌跡概率分佈和改善策略的軌跡概率分佈不一樣，因此在使用資料進行目標策略評估的時候需要考慮該影響，常用的方法是重要性取樣

【強化學習筆記】6.4 基於值函式逼近的強化學習方法-TD Q-learning線性逼近程式碼實現

針對一個迷宮問題，設計TD Q-learning線性逼近演算法（異策略）。迷宮圖示見下圖，其中紅色部分為障礙物，綠色部分為出口：使用的模型是：線性模型輸入是狀態的特徵，這裡是25維的one-hot編碼輸出是動作對應的4維陣列使用t

【extjs6學習筆記】0.4 準備：書籍與文檔

學習筆記翻譯 example nbsp detail started ext js 6 art ear Ext JS 6 By Example Ext JS Essentials Learning Ext JS - Fourth Edition Ext JS 6:

【Linux學習筆記】第4章 Linux磁盤管理

linux centos 磁盤格式化 LVM 4.1df命令df 查看文件系統磁盤空間使用情況。文件系統磁盤總大小（kB）已使用可用已用% 掛載點（目錄）Linux磁盤不能直接訪問，必須要有一個掛載點。參數：-h 可根據磁盤大小顯示適當的單位。帶有tmpfs代表臨時的

【機器學習筆記】第二章：模型評估與選擇

機器學習 ini ppi 第二章 err cap ner rate rac 2.1 經驗誤差與過擬合 1. error rate/accuracy 2. error: training error/empirical error, generalization error

【安全牛學習筆記】OSI網絡模型

http ssh stmp 安全 OSI網絡模型物理層規定比特在物理介質中的傳輸方式,解決物理傳輸過程中的問題。代表設備:中繼器,集線器(多端口中繼器) 數據鏈路層在不可靠的網絡環境中進行可靠的數據傳輸。解決數據傳輸中可能出現的

【python學習筆記】python函式定義和傳參方法說明

一、函式定義方式函式定義用關鍵字def，其引數傳遞不用設定型別，也不用定義返回，然後在函式名稱後加上:號，這點和java很不一樣，相對來說更加簡單了；另外包含關係上用四個空格來標識，而非java的;號；如下為一個範例，定義了一個函式用來生成任意上界的菲波那契數列: # -*- c

【日常學習筆記】2019/1/10(Oracle語句學習)

Oracle語句學習（1）select * from dual中的dual到底是什麼？在sql-developer中測試發現，dual只是一個包含一列，永遠只返回一條資料記錄的虛擬表。使用dual，是為了構成select的

【CTP學習筆記】CTP客戶端開發指南學習筆記一

1、組播行情使用函式CreateFtdcMdApi 建立CThostFtdcMdApi 的例項。其中第一個引數是本地流檔案生成的目錄。流檔案是行情介面或交易介面在本地生成的流檔案，字尾名為.con。流檔案中記錄著客戶端收到的所有的資料流的數量。第二個引數描述

【OpenCV學習筆記】之三：Mat初始建立方法----要求資料連續儲存

int rows=15; // int cols=40; int size=rows*cols; vector<int>Va(size); vector<Vec<int, 8>>Vb(size); vector<Vec4i>V

【python學習筆記】3：LRU(最近最少使用頁面置換)演算法

題目描述：一程序剛獲得3個主存塊的使用權，若該程序訪問頁面的次序是1,2,3,4,1,2,5,1,2,3,4,5。當採用LRU演算法時發生的缺頁次數是多少？ LRU是最近最少使用頁面置換演算法，該演算法用一個開放的棧來儲存當前正在使用的各個頁面號。當有一個新的頁面要被訪

【隨堂筆記】unity中socket的用法（二、伺服器與客戶端之間簡單的資料傳遞）

主要實現伺服器與客戶端之間簡單的資料傳輸（單次）伺服器程式碼 using System; using System.Net; using System.Net.Sockets; namespace SeverSocket { class Program {

【mahout筆記】初步理解userCF（基於使用者的推薦演算法）在mahout的實現

昨天嘗試在java中搭建了一個mahout的小demo，實現的就是基於使用者的推薦演算法。程式碼如下（更多程式碼和測試資料庫）參見前一篇： public class RecommendTest { final static int NEIGHBORHOOD_NUM =

【mahout筆記】初步理解itemCF（基於物品的推薦演算法）在mahout的實現

之前分析了基於使用者的CF的原理。今天嘗試除錯一下基於物品的CF演算法。感謝大佬的整理為我指明方向。基於物品的CF的原理和基於使用者的CF類似，只是在計算鄰居時採用物品本身，而不是從使用者的角度，即基於使用者對物品的偏好找到相似的物品，然後根據使用者的歷史偏好，推

深度學習筆記——Attention Model（注意力模型）學習總結

深度學習裡的Attention model其實模擬的是人腦的注意力模型，舉個例子來說，當我們觀賞一幅畫時，雖然我們可以看到整幅畫的全貌，但是在我們深入仔細地觀察時，其實眼睛聚焦的就只有很小的一塊，這個時候人的大腦主要關注在這一小塊圖案上，也就是說這個時候人腦對整幅圖的關注並

【強化學習筆記】4.2 無模型的強化學習方法-蒙特卡羅演算法程式設計實現

本文給出基於蒙特卡洛的強化學習方法（隨機策略計算狀態值函式）和基於蒙特卡洛的強化學習方法（ε−greedy策略計算狀態行為值函式）兩種方法的程式設計實現。問題模型是迷宮問題。針對一個迷宮問題，設計基於蒙特卡洛的強化學習方法。迷宮圖示見下圖，其中紅色

【JAVAWEB學習筆記】網上商城實戰4：訂單模塊

接收筆記網上商城詳情 src head 分頁查詢 cnblogs logs 今日任務完成訂單模塊的功能 1.1 訂單模塊的功能 1.1.1 我的訂單：【我的訂單的查詢】 * 在header.jsp中點擊我的訂單. * 提交到Servlet:

【安全牛學習筆記】答疑（Conky、Goagent、Linux4.4內核發布）,手動漏洞挖掘

security+ 漏洞信息安全問答Conky https://weather.yahoo.com/ conkyrc beijing: 2151330Goagent 不要啟動多次 Win+MLinux 4.4內核發布，在虛擬機中可使用主機上的GPU[ema

【學習筆記】唐大仕—Java程式設計第4講類、包和介面之4.2 類的繼承

【學習筆記】唐大仕—Java程式設計第4講類、包和介面之4.2 類的繼承 super的使用 1.使用super訪問父類的域和方法注意：正是由於繼承，使用this可以訪問父類的域和方法。但是有時為了明確指明父類的域和方法，就要用關鍵字super。this和super都是指當前同一個物件

【強化學習筆記】4.4 無模型的強化學習方法-蒙特卡羅演算法與重要性取樣程式碼實現

相關推薦