Q-learning演算法實現1（matlab）

阿新 • • 發佈：2019-02-07

演算法虛擬碼：

得到Q表後，根據如下演算法選擇最優策略：

以機器人走房間為例，程式碼實現如下：

注：原文中的房間狀態0-5分別對應程式碼中1-6

%機器人走房間Q-learning的實現
%% 基本引數
episode=100; %探索的迭代次數
alpha=1;%更新步長
gamma=0.8;%折扣因子
state_num=6;
action_num=6;
final_state=6;%目標房間
Reward_table = [
-1 -1 -1 -1 0 -1; %1
-1 -1 -1 0 -1 100; %2
-1 -1 -1 0 -1 -1; %3
-1 0 0 -1 0 -1; %4
0 -1 -1 0 -1 100; %5
-1 0 -1 -1 0 100 %6
];
%% 更新Q表
%initialize Q(s,a)
Q_table=zeros(state_num,action_num);
for i=1:episode
    %randomly choose a state
    current_state=randperm(state_num,1);
    while current_state~=final_state
        %randomly choose an action from current state
        optional_action=find(Reward_table(current_state,:)>-1);
        chosen_action=optional_action(randperm(length(optional_action),1));
        %take action, observe reward and next state
        r=Reward_table(current_state,chosen_action);
        next_state=chosen_action;
        %update Q-table
        next_possible_action=find(Reward_table(next_state,:)>-1);
        maxQ=max(Q_table(next_state,next_possible_action));
        Q_table(current_state,chosen_action)=Q_table(current_state,chosen_action)+alpha*(r+gamma*maxQ-Q_table(current_state,chosen_action));
        current_state=next_state;
    end
end
 %% 選擇最優路徑
 %randomly choose a state
currentstate=randperm(state_num,1);
fprintf('Initialized state %d\n',currentstate);
%choose action which satisfies Q(s,a)=max{Q(s,a')}
while currentstate~=final_state
     [maxQtable,index]=max(Q_table(currentstate,:));
     chosenaction=index;
     nextstate=chosenaction;
     fprintf('the robot goes to %d\n',nextstate);
     currentstate=nextstate;
end

程式碼輸出：

Q表：

最優策略：

Q-learning演算法實現1（matlab）

演算法虛擬碼：得到Q表後，根據如下演算法選擇最優策略：以機器人走房間為例，程式碼實現如下：注：原文中的房間狀態0-5分別對應程式碼中1-6 %機器人走房間Q-learning的實現 %% 基本引數 episode=100; %探索的迭代次數 alph

各種基本演算法實現小結（五）—— 排序演算法

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

OpenCV下車牌定位演算法實現程式碼（一）

分類：影象處理

C/C++：各種基本演算法實現小結（四）—— 圖及其遍歷

各種基本演算法實現小結（四）—— 圖及其遍歷（均已測試通過） ==================================================================== 圖——深度優先和廣度優先演算法無向圖

個人專案初始版本實現程式碼（matlab）

% wordcount %實現詞頻的統計 %% 清空變數 clear clc %% 初始版本的開始測試 str1 = 'my name is cuifengrui what is your name'; %% 具體實現過程 sort_str1 = sort(str1)

C/C++:各種基本演算法實現小結（一）—— 單鏈表

各種基本演算法實現小結（一）—— 單鏈表（均已測試通過） ============================================================ 單鏈表(測試通過) 測試環境： Win-TC

C/C++：各種基本演算法實現小結（六）—— 查詢演算法

各種基本演算法實現小結（六）—— 查詢演算法（均已測試通過） =================================================================== 1、簡單查詢在一組無序數列中，查詢特定某個數值，並返回其位置

C/C++：各種基本演算法實現小結（七）—— 常用演算法

各種基本演算法實現小結（七）—— 常用演算法（均已測試通過） ====================================================================== 1、判斷素數測試環境：VC 6.0

C/C++：各種基本演算法實現小結（二）—— 堆棧

各種基本演算法實現小結（二）—— 堆棧（均已測試通過） ============================================================== 棧——陣列實現測試環境：Win - TC

用Q-Learning演算法實現無人車智慧代理程式

優達學城的第四個專案，通過Q-Learning演算法來實現一個簡單的無人車代駕程式。先來一張訓練過程的動圖。需求分析一個無人車需要滿足的最基本需求就是安全性和可靠性。安全性用來保證使用者安全，可靠性用來保證在限定時間內將使用者送達目的地。安全

PoA共識引擎演算法實現分析（2）

PoA共識引擎演算法實現分析 clique中一些概念和定義 EPOCH_LENGTH : epoch長度是30000個block, 每次進入新的epoch,前面的投票都被清空,重新開始記錄,這裡的投票是指加入或移除signer BLOCK_PERIOD : 出塊時間,

C/C++：各種基本演算法實現小結（三）—— 樹與二叉樹

各種基本演算法實現小結（三）—— 樹與二叉樹（均已測試通過） =================================================================== 二叉樹——先序測試環境：VC 6.0 (C

經典演算法實現——字串（一）

這篇文章主要介紹字串相關的題目。處理字串操作相關問題時，常見的做法是從字串尾部開始編輯，從後往前逆向操作。這麼做的原因是因為字串的尾部往往有足夠空間，可以直接修改而不用擔心覆蓋字串前面的資料。摘自

String 常用方法最優演算法實現總結（三） -- findCommonSubstring 和difference

1. String difference(final String str1, final String str2) 說明：Compares two Strings, and returns the portion where they differ. i.e: ("ahc

紅黑樹插入與刪除演算法實現+程式碼（一）

要實現紅黑樹節點的插入刪除，得先實現二叉樹節點插入刪除，在這基礎上加入紅黑樹調整演算法。今天早上編寫了二叉樹的節點刪除程式碼。結果如下實踐經驗： 1.要刪除節點，得先遍歷出節點位置，我用陣列存放遍歷出來的結果。然後刪除結果中倒數第三個數字時，遇到了困難：（1）剛

Q-learning演算法實現

create grids for c in range(0, MAZE_W * UNIT, UNIT): x0, y0, x1, y1 = c, 0, c, MAZE_H * UNIT self.canvas.create_line(x0, y0

用Q-learning演算法實現自動走迷宮機器人

專案描述：在該專案中，你將使用強化學習演算法，實現一個自動走迷宮機器人。如上圖所示，智慧機器人顯示在右上角。在我們的迷宮中，有陷阱（紅色炸彈）及終點（藍色的目標點）兩種情景。機器人要儘量避開陷阱、儘快到達目的地。小車可執行的動作包括：向上走 u、向右走 r、

增強學習Q-learning分析與演示（入門）

一些說明、參閱 https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow/blob/master/contents/1_command_line_reinforcement_learning/treasure_on_right.

濾波反投影重建演算法（FBP）實現及應用（matlab）

濾波反投影重建演算法實現及應用（matlab） 1. 濾波反投影重建演算法原理濾波反投影重建演算法常用在CT成像重建中，背後的數學原理是傅立葉變換：對投影的一維傅立葉變換等效於對原影象進行二維的傅立葉變換。（傅立葉中心切片定理） CT重建演算法大致分為解析重建

DQN（Deep Q-learning）入門教程（三）之蒙特卡羅法演算法與Q-learning演算法

## 蒙特卡羅法在介紹Q-learing演算法之前，我們還是對蒙特卡羅法（MC）進行一些介紹。MC方法是一種無模型（model-free）的強化學習方法，目標是得到最優的行為價值函式$q_*$。在前面一篇[部落格](https://www.cnblogs.com/xiaohuiduan/p/1297330

Q-learning演算法實現1（matlab）

相關推薦