學習日誌-2021.10.02

阿新 • • 發佈：2021-10-03

學習日誌-2021.10.02

文獻閱讀：

博弈論與多智慧體強化學習

重點討論強化學習技術在多智慧體系統中的應用。
描述了一個基於對博弈論的經濟研究的基本學習框架，並說明了在這種系統中出現的額外複雜性，以及分析學習結果的工具。

Introduction

多智慧體博弈標準模型

系統是分散的。因為需要滿足多個可能衝突的目標，或者僅僅是一個集中的控制器需要許多資源，所以資料或控制在物理上是分散式的。
智慧體自主的實體，有個人的目標和獨立的決策能力，但也受到彼此的決策約束的影響。
無狀態博弈技術和馬爾可夫博弈技術
- 前者專注於處理多智慧體互動，而假設環境是平穩的
- 後者同時處理多智慧體互動和動態環境。

Repeated Games

博弈理論
- 博弈是一個數學物件，它根據個體收益描述了玩家策略之間的互動結果。
標準博弈
- 定義
  - 標準博弈是一個元組 \((n,A_{1,...,n},R_{1,...,n})\) ，其中：
    - \(1,...,n\) ：遊戲參與者的集合（玩家）
    - \(A_k\) ：參與者 \(k\) 的動作集合
    - \(R_k\) ：表示參與者 \(k\) 在動作 \(a∈A_1×...×A_n\) 中獲得的預期收益。
  遊戲是通過允許每個玩家從其私有動作集 \(A_k\) 中獨立選擇一個單獨的動作來進行的。
- 策略 \(\sigma_k\)
  - \(\mu (A_k)\)
    
    ：是參與人 \(k\) 的動作集 \(A_k\) 的概率分佈的集合。 \(A_k → [0,1]\) 是 \(\mu (A_k)\) 的一個元素。
  - 純策略：如果 \(\sigma_k (A) = 1 ∈A_k\) ，其他所有的 \(\sigma_k (A)\) 為0。（否則為混合策略）
  - 在標準博弈中有一個重要的假設，即玩家策略的預期收益是線性的，也就是說，對於策略配置σ，玩家的預期回報是:
    \[R_k (\sigma) = \sum_{a∈A} \prod_{j=1}^n \sigma_j (a_j) R_k (a) \]
博弈型別
- 。。。
博弈中的解決方案概念

由於遊戲中的玩家擁有依賴於其他玩家行動的個人獎勵功能，所以遊戲的預期結果往往無法明確定義。我們不能簡單地期望參與者最大化他們的收益，因為所有參與者不可能同時達到這個目標。
- 當玩家採取最佳響應時，他的收益相對於對手的當前策略是最大化的，也就是說，如果遊戲中的其他參與者保持策略不變，那麼玩家不可能提高自己的獎勵。
  
  設 \(\sigma = (\sigma_1,...,\sigma_n)\) 是一個策略集； \(\sigma_{-k}\) 表示不包括參與者k的策略 \(\sigma_k\) 的策略集，若有：
  \[R_k (\sigma_{-k}∪\sigma_k^* )≥ R_k (\sigma_{-k} ∪ \sigma'_k) ∀ \sigma'_k ∈ \mu (A_k) \]
  則策略 \(\sigma_k^*∈ \mu (A_k)\) 稱為參與者k的最佳響應。
- 納什證明了每個標準博弈至少有一個納什均衡（可能在混合策略中）。在納什均衡中，所有參與者都採取最佳響應，這意味著每個參與者都對其他參與者的當前策略採取最佳對策，則博弈中的任何參與者都不能通過單方面的偏離均衡來提高收益，想逃離納什均衡則必須有多個參與者同時改變自己的策略。
博弈論中的強化學習
- 強化學習的目標
  - 由於通常情況下，博弈中的所有參與者都不可能同時最大化自己的收益，大多數強化學習的方法都試圖實現納什均衡。但納什均衡存在一定的侷限性：
    - 納什均衡不一定唯一，這導致均衡選擇的問題。納什均衡的方法不能保證參與者有唯一的結果，也不能保證參與者有唯一的回報。
    - 在一個納什均衡中，參與者可能有不同的預期收益，不同的參與者可能會傾向於不同的均衡結果，這意味著需要注意確保參與者才一個納什均衡中協調。
    - 納什均衡並不能保證最優，納什均衡保證了沒有一個參與者可以通過單方面改變策略來提高收益，但它不能保證參與者全域性收益最大化，甚至不能保證參與者同時做得更好。（一個博弈有可能產生非納什均衡結果，儘管如此，它還是有可能會給所有參與者帶來比納什均衡下更高的收益，如囚徒困境）
  - 雖然納什均衡經常被用作學習的主要目標，但它並不是博弈論中唯一可能的解概念。如相關均衡（CE）、進化穩定策略（ESS）等。每種均衡都有自己的應用和優缺點，需要根據問題需要進行選擇。
  - 遺憾的概念：
    
    遺憾是一個智慧體實現的收益與該智慧體使用某種固定策略所能獲得的最大收益之間的差值。
    \[R_T = \max_{a∈A_k} \sum_{t=1}^T R_k (a_{-k}(t)∪\{ a \}) - R_k(a(t)) \]
    大多數基於遺憾的學習方法都試圖最小化學習者的平均遺憾 \(R_T/ T\) 。為了確定 \(R_k (a{-k}(t)∪{a})\) 項，精確計算這種遺憾需要了解報酬函式並觀察其他智慧體的行為。如果沒有這方面的資料，遺憾只能根據以前的意見來估計。

學習日誌-2021.10.02

學習日誌-2021.10.02 文獻閱讀：博弈論與多智慧體強化學習重點討論強化學習技術在多智慧體系統中的應用。

學習日誌-2021.10.04

學習日誌-2021.10.04 博弈論與多智慧體強化學習（續）文獻閱讀：學習自動機強化方案

學習日誌-2021.10.09

學習日誌-2021.10.09 今日主要內容：成功執行兩個sarsa演算法相關的專案(用於路徑規劃)：

學習日誌-2021.10.11

學習日誌-2021.10.11 複習一下機器學習書本第四章內容決策樹基本演算法這是一個遞迴的過程，有三種情況會導致遞迴返回：

學習日誌-2021.10.24

學習日誌-2021.10.24 碩士論文第二部分復現複雜網路上的合作行為演化研究 ——基於 Q-learning 演算法

總結（2021-10-02）

這次的總結開始於中秋節的時候，可因為有各種事情，最終直到現在——國慶期間——才真正準備把它寫完，這時已經離上一次總結有一個半月的時間了，我想回顧這過去一個半月的時間，總結這一個半月的得失，並適當展望接

Cannot deserialize value of type `java.time.LocalDateTime` from String "2021-10-02 00:00:00"

問題：在物件中使用LocalDateTime接收前端時間字串時報了以下錯誤（已經加了@DateTimeFormat註解）

【2021-10-02】連嶽摘抄

23:59 人短暫的一生裡，所見到的大多數是悲慘和苦難，是卑劣和失望，為了對人性，對人類的前途保持信心，所以必須讀史。年輕人一定要讀史，讀懂歷史，才能感受自己活在今天的幸運！

java學習筆記 2021.10.24

2021.10.24 JVM 垃圾回收概述概述垃圾回收不只是java的特有，其他的也有體現，但現在已經成了java的招牌能力，極大的提高了開發的效率。

學習日記2021/10/24

Python學習記錄：第[2]周 Python基本圖形繪製引入庫：①form<turtle> import <penup> ；②form<turtle>import *（函式名易重複）；③import <turtle> as t（庫別名）；

學習筆記 2021.10.22

2021.10.22 JVM 常量池具體存在的位置在哪裡? 是怎麼通過常量池來減少記憶體消耗的？

學習筆記 2021.10.25

2021.10.25 JVM 垃圾回收相關概念 system.gc的理解當然回收的區域也包括方法區。免責宣告的意思是不保證什麼時候執行，即該方法的作用是提醒虛擬機器希望執行垃圾回收行為。

學習筆記 2021.10.26

2021.10.20and21 JVM 執行時資料區虛擬區棧各種變數型別的一個簡單的比較。類變數即是在用static修飾的變數。

學習筆記 2021.10.30續

2021.10.31 併發執行緒池執行緒池必考：三大方法、七大引數、四種拒絕策略池化技術

學習日誌-2021.11.08

學習日誌-2021.11.08 其他Q-Learning SA-Q-learning 為了平衡Q-learning的探索與利用，基於Metropolis準則提出的演算法

10月30日學習日誌

今天學習了HTML的頭部。 HTML <head> 元素 <head> 元素包含了所有的頭部標籤元素。在 <head>元素中你可以插入指令碼（scripts）, 樣式檔案（CSS），及各種meta資訊。

【學習筆記】2021.10.7 - 清北學堂模擬賽

T1 連乘題目內容小 \\(A\\) 是一名小學五年級的小學生，他在上課開小差的時候在紙上寫下了一個乘法式子：\\(L\\times (L+1)\\times (L+2)\\times ...\\times R=X\\),回家的時候式子的左側已經模糊不清了，只剩下

圖學習學術速遞[2021/10/8]

Graph相關(圖學習|圖神經網路|圖優化等)(4篇) [ 1 ] Joint inference of multiple graphs with hidden variables from stationary graph signals標題：基於平穩圖訊號的多個隱變數圖的聯合推斷連結：https://arx

Java初步學習——2021.10.09每日總結，第五週週六

（1）今天做了什麼；（2）明天準備做什麼？（3）遇到的問題，如何解決？

【學習筆記】2021.10.9 - zhengru IOI 七連測 Day6

T1聚會正解思路簡單題，開棧暴力儲存每個 1 的位置，然後暴力向兩邊拓展更新答案即可。

學習日誌-2021.10.02

學習日誌-2021.10.02

文獻閱讀：

Introduction

Repeated Games

相關推薦