學習日誌-2021.11.08

阿新 • • 發佈：2021-11-08

學習日誌-2021.11.08

其他Q-Learning

SA-Q-learning

為了平衡Q-learning的探索與利用，基於Metropolis準則提出的演算法

演算法描述

初始化Q表
對每一輪次（episode）：
- 隨機選擇或初始化一個狀態 \(s_t\)
- 對於每一步（step）：
  - 從動作空間隨機選擇一個動作 \(a_r\)
  - 根據策略 \(\pi (s_t)\) （一般指Q-learning的 \(\epsilon - greedy\) 策略）從動作空間選擇一個動作 \(a_p\)
  - 獲取一個隨機數 \(\zeta ∈ (0,1)\)
  - 如果 \(\zeta < \exp ((Q(s,a_r)-Q(s,a_p))/T)\)
    
    ，那麼 \(a ← a_r\) ，否則 \(a ← a_p\)
  - 執行動作 \(a\) ，並獲得一個收益 \(r_{t+1}\) 和當前的新狀態 \(s_{t+1}\)
  - 根據下面的公式更新 \(Q (s_t , a_t)\)
    \[Q(s_t,a_t) ← Q(s_t,a_t) + \alpha (r_{t+1} + \gamma \max_a Q(s_{t+1},a) - Q(s_t , a_t)) \]
  - \(s_t ← s_{t+1}\)
- 當（step）到達某一個目標狀態時，結束迴圈
- 使用溫度下降公式重新計算溫度引數 \(T\)
當輪次（episode）達到預定次數時，結束迴圈

EQL 演算法（enhanced Q-learning）

演算法描述

隨機初始化所有 \(Q(s,a)\) 的值
對每一輪次（episode）：
- 隨機選擇或初始化一個狀態 \(s_t\)
- 對於每一步（step）：
  - \(\tilde{Q_t} = \max_a (Q(s_t , a)) - \min_a (Q(s_t,a))\)
  - \(ΔV_t = \max_a (Q(s_t,a)) - \max_a (Q(s_{t-1}, a))\)
  - \(E_t = v E_{t-1} + (1-v)\log(T_{t-1})\)
  - 使用模糊平衡器計算 \(T\)
  - 使用策略從 \(Q\)
    
    的狀態 \(s_t\) 選擇合適的動作 \(a_t\)，根據玻爾茲曼分佈使用引數 \(T\) 計算再決定是否採取
  - 執行動作 \(a_t\) ，並獲得一個收益 \(r_{t+1}\) 和當前的新狀態 \(s_{t+1}\)
  - 根據下面的公式更新 \(Q (s_t , a_t)\)
    \[Q(s_t,a_t) ← Q(s_t,a_t) + \alpha (r_{t+1} + \gamma \max_a Q(s_{t+1},a) - Q(s_t , a_t)) \]
  - \(s_t ← s_{t+1}\)
- 當（step）到達結束狀態
當輪次（episode）達到預定次數時，結束迴圈

學習日誌-2021.11.08

學習日誌-2021.11.08 其他Q-Learning SA-Q-learning 為了平衡Q-learning的探索與利用，基於Metropolis準則提出的演算法

學習日誌-2021.10.11

學習日誌-2021.10.11 複習一下機器學習書本第四章內容決策樹基本演算法這是一個遞迴的過程，有三種情況會導致遞迴返回：

學習日誌-2021.10.02

學習日誌-2021.10.02 文獻閱讀：博弈論與多智慧體強化學習重點討論強化學習技術在多智慧體系統中的應用。

學習日誌-2021.10.04

學習日誌-2021.10.04 博弈論與多智慧體強化學習（續）文獻閱讀：學習自動機強化方案

學習日誌-2021.10.09

學習日誌-2021.10.09 今日主要內容：成功執行兩個sarsa演算法相關的專案(用於路徑規劃)：

學習日誌-2021.10.24

學習日誌-2021.10.24 碩士論文第二部分復現複雜網路上的合作行為演化研究 ——基於 Q-learning 演算法

[Java 04]方法介紹 2021.11.08

Java方法介紹 java都是值傳遞，引用傳遞 1. 過載一個類中，相同名稱的方法有不同的引數。

2021/11/08 集訓補題

ljs神 Orz，再一次大比分rank1，無線接近AK。膜拜nbnbnbnbnbnbnbnbnb的ljs隊長。 T1 Description

springmvc 學習筆記 2021.11.7~11.8

SpringMVC 學習方法轉變 JavaSE、JavaWeb：老師帶，容易入門框架：多自學，研究文件

學習筆記 2021.11.13. linux

2021.11.13 虛擬機器和centos的安裝基本的虛擬機器和linux作業系統和windows的關係：

11.09學習日誌

11.09學習日誌 HTML基礎知識總結一、HTML的定義 HTML，超文字標記語言，寫給瀏覽器的語言，目前網路上應用最廣泛的語言。HTML也在不斷的更新，最新版本已經出現了HTML5。在HTML5中出現了許多新特性，也遺棄了一些舊

11.06學習日誌

11.06學習日誌 html及html5的知識點記錄 1、Doctype作用？標準模式與相容模式各有什麼區別（1）、<!DOCTYPE>宣告位於位於HTML文件中的第一行，處於<html>標籤之前。告知瀏覽器的解析器用什麼文件標準解

11.16學習日誌

11.16學習日誌 HTML運用 1、HTML概念 HTML：Hyper Text Mark-up Language超文字標記語言，是一種用於建立網頁的標準標記語言。通過元素標籤的形式建立Web站點，通過瀏覽器進行解析。

11.11學習日誌

11.11學習日誌 CSS 1.1 CSS的定義全名：CascadingStyleSheets->層疊樣式表定義：CSS成為層疊樣式表，它主要用於設定HTML頁面中的文字內容（字型、大小、對齊方式等）、圖片的外形（寬高、邊框樣式、邊距等）以

11.22學習日誌

11.22學習日誌盒子模型認識盒子模型所謂盒子模型就是把HTML頁面中的元素看作是一個矩形的盒子，也就是一個盛裝內容的容器。每個矩形都由元素的內容、內邊距（padding）、邊框（border）和外邊距（margin）組成。

11月14日學習日誌

今天學習了基於servlet的網頁點選計數器。例項： package com.runoob.test; import java.io.IOException;

[2021 Spring] CS61A 學習筆記 lecture 11 Sequences (II) and Data Abstraction

課本： http://composingprograms.com/pages/22-data-abstraction.html 這節課主要內容是序列的特性和資料抽象。

Java spring5 學習筆記（2021.11.4~11.5）

Spring 一、Spring簡介 Spring--->軟體行業的春天 2002--->Spring前身interface21框架 2004年3月24出現1.0版本

Vue 學習筆記（2021.11.9~11.10）

Vue 只關注檢視層：HTML+CSS+JS 網路通訊：axios 頁面跳轉：vue-router 狀態管理：vuex Vue-UI：ice.work

【2021-11-12】學習，為自己，也為別人

20:00 我們最好把自己的生命看作是前人生命的延續，是現在共同的生命的一部分，同時也是後人生命的開端。如此延續下去，科學就會一天比一天燦爛，社會就會一天比一天更美好。