讀書筆記: 博弈論導論 - 06 - 混合的策略

阿新 • • 發佈：2017-12-26

分布 ani cnblogs resp exist right 問題可能區間

讀書筆記: 博弈論導論 - 06 - 混合的策略

混合的策略

本文是Game Theory An Introduction (by Steven Tadelis) 的學習筆記。

策略，信念和期望收益

混合策略
玩家i的有限純策略集合$S_i = {s_{i1}, s_{i2}, \cdots, s_{im}}$。
將$\Delta S_i$定義為$S_i$的單純形，是在$S_i$上所有概率分布的集合。
玩家i的一個混合策略(mixed strategy)是$\sigma_i \in \Delta S_i$，
\[ \sigma_i = (\sigma_i(s_{i1}), \sigma_i(s_{i2}), \cdots, \sigma_i(s_{im})) \where \\sigma_i(s_{i}) \text{ : the probability that player i plays s_{i}} \]

兩個明顯的條件:
\[ \sigma_i(s_{i}) \geq 0, \forall s_i \in S_i \\sum_{s_i \in S_i} \sigma_i(s_{i}) = 1 \]

$\Delta S_i$的例子：(rock-paper-scissor)
$\Delta S_i$ = {(\sigma_i(R), \sigma_i(P), \sigma_i(S)) : \sigma_i(R), \sigma_i(P), \sigma_i(S) \geq 0, \sigma_i(R) + \sigma_i(P) + \sigma_i(S) = 1}$
表示所有$(\sigma_i(R), \sigma_i(P), \sigma_i(S))$

對，使得每個值都大於等於0，並且每個值的和為1。
$\sigma(\dot)$支持策略$s_i$($s_i$ is in the support of $\sigma(\dot)$)
給定一個玩家i的混合策略$\sigma(\dot)$，如果$\sigma(s_i) > 0$，則稱$\sigma(\dot)$支持純策略$s_i$。
連續策略集的混合策略
玩家i的純策略集合$S_i$是一個值區間，則玩家i的一個混合策略是累積分布函數$F_i : S_i \to [0, 1], \ where \ F_i(x) = Pr{s_i < x>}$。
如果$F_i(\dot)$

在密度$f_i(\dot)$上可微分，並且$f_i(\dot) > 0$，則稱$F_i(\dot)$支持純策略$s_i$。
信念(belief)
信念$\pi_i \in \Delta S_{-i}$代表玩家i認為對手采用$s_{-i} \in S_{-i}$的概率。
期望收益(Expected Payoffs)
玩家i選擇策略$s_i \in S_i$，並且對手選擇混合策略$\sigma_{-i} \ \Delta_{-i}$，的期望收益:
\[ v_i(s_i, \sigma_{-i}) = \sum_{s_{-i} \in S_{-i}} \sigma_{-i}(s_{-i}) v_i(s_i, s_{-i}) \]
玩家i選擇混合策略$\sigma_i \in \Delta S_i$，並且對手選擇混合策略$\sigma_{-i} \ \Delta_{-i}$，的期望收益:
\[ v_i(\sigma_i, \sigma_{-i}) = \sum_{s_{i} \in S_{i}} \sigma_{i}(s_{i}) v_i(s_i, s_{-i}) = \sum_{s_i \in S_i} ( \sum_{s_{-i} \in S_{-i}} \sigma_{i}(s_{i}) \sigma_{-i}(s_{i-}) v_i(s_i, s_{-i}) ) \]
混合策略的納什均衡
混合策略組合$\sigma^* = (\sigma_1^*, \sigma_2^*, \cdots, \sigma_n^*)$是一個納什策略，如果對於每個玩家$\sigma_i^*$都是最佳響應。
\[ v_i(\sigma_i^*, \sigma_{-i}^*) \geq v_i(\sigma_i, \sigma_{-i}^*), \ \forall \sigma_i \in \Delta S_i \]

推論 6.1

如果$\sigma^*$是一個納什博弈，並且$\sigma^*支持$s_i$和$s‘_i$,則
$v_i(s_i, \sigma_{-i}^*) = v_i(s'_i, \sigma_{-i}^*) = v_i(\sigma^*, \sigma_{-i}^*)$

Rock-Paper-Scissor

斷言 6.1:

如果一個玩家選擇純策略，另一個玩家選擇混合策略，則不存在納什均衡。

斷言 6.2:

如果至少有一個玩家選擇只有兩個純策略的混合策略，則不存在納什均衡。

嚴格劣勢策略的叠代消除和可合理化(IESDS and Rationalizability)

嚴格劣勢
$s'_i \in S_i$嚴格劣勢於$\sigma_i \in \Delta S_i$，如果滿足條件：
\[ v_i(\sigma_i, s_{-i}) > v_i(s'_i, s_{-i}), \ \forall s_{-i} \in S_{-i} \\]
不可能是一個最佳響應
對於玩家i的混合策略$\sigma_i \in \Delta S_i$，這個混合策略作為最佳響應的對手混合策略$\sigma_i \in BR_i(\sigma_{-1})$，如果對手的任何混合策略$\sigma_{-1} \in \Delta S_{-i}$都不在玩家i的信念中，則$\sigma_i \in \Delta S_i$不可能是一個最佳響應。

斷言

一個劣勢混合策略$sigma_i$不可能是一個最佳響應。

推論 6.2

任何兩人博弈中，策略$sigma_i$是一個嚴格劣勢純策略，當且僅當策略$sigma_i$不可能是一個最佳響應。

納什存在定理

納什存在定理(Nash‘s existence Theorem)

任何普通形式、具有限策略集合的博弈存在一個納什均衡的混合策略。
納什存在定理的證明用到了不動點定理。

布勞威爾不動點定理(Brouwer‘s Fixed-Point Theorem)

如果f(x)是一個連續函數從域[0, 1]到[0, 1]$f:[0, 1] \to [0, 1]$,則存在至少一個點$f(x^*) = x^*, x^* \in [0, 1]$。
證明過程簡介：連續函數f(x)一定和函數$f_1(x) = x$至少有一個交點。

最佳響應對應(collection of best response correspondence)
最佳響應對應集合$BR \equiv BR_1 \times BR_2 \times \cdots \times BR_n$，映射$\Delta S \equiv \Delta S_1 \times \Delta S_2 \times \cdots \times \Delta S_n $ 到自身。
也就是說：$BR : \Delta S \rightrightarrows \Delta S$, $BR(\sigma) \subset \Delta S, \ for \ \sigma \in \Delta S$

角谷不動點定理(Kakutani Fixed-Point Theorem)

一個對應$C: X \rightrightarrows X$有一個不動點，如果以下四個條件都滿足：

X是非空的，緊湊的，$\mathbb{R}^n$的凸子集

C(x)對於所有的x都非空。

C(x)對於所有的x都是凸的。

C有一個閉合圖。

凸的(convex)
集合$X \subseteq \mathbb{R}^n$是凸的，如果集合X中任何兩點的連線上的點都在集合X中。
閉合的(closed)
集合$X \subseteq \mathbb{R}^n$是閉合的，如果集合X邊緣點在集合X中。(0, 1]是非閉合的，[0, 1]是閉合的。
緊湊的(compact)
集合$X \subseteq \mathbb{R}^n$是緊湊的，如果集合X是閉合並且有界。[0, 1]是緊湊的，$[0, ∞]$是非緊湊的。
閉合圖(closed graph)
圖$C: X \rightrightarrows X$是閉合圖, 如果C是閉合的。

參照

Game Theory An Introduction (by Steven Tadelis)
讀書筆記: 博弈論導論 - 01 - 單人決策問題
讀書筆記: 博弈論導論 - 02 - 引入不確定性和時間
讀書筆記: 博弈論導論 - 03 - 預備知識
讀書筆記: 博弈論導論 - 04 - 理性和公共知識
讀書筆記: 博弈論導論 - 05 - 理性和公共知識

讀書筆記: 博弈論導論 - 06 - 混合的策略

分布 ani cnblogs resp exist right 問題可能區間讀書筆記: 博弈論導論 - 06 - 混合的策略混合的策略本文是Game Theory An Introduction (by Steven Tadelis) 的學習筆記。策略，信念和期

讀書筆記: 博弈論導論 - 07 - 完美信息的動態博弈預備知識

truct imp comm off tro markdown term 同時 orm 讀書筆記: 博弈論導論 - 07 - 完美信息的動態博弈預備知識完美信息的動態博弈預備知識本文是Game Theory An Introduction (by Steven Ta

讀書筆記: 博弈論導論 - 12 - 不完整信息的靜態博弈貝葉斯博弈

函數 eve rsa rac mat 最大 orm 靜態們的讀書筆記: 博弈論導論 - 12 - 不完整信息的靜態博弈貝葉斯博弈貝葉斯博弈(Bayesian Games) 本文是Game Theory An Introduction (by Steven Tadel

讀書筆記: 博弈論導論 - 14 - 不完整信息的靜態博弈機制設計

lte down 保持最優化工 href 滿足動態 rul 讀書筆記: 博弈論導論 - 14 - 不完整信息的靜態博弈機制設計機制設計(Mechanism Design) 本文是Game Theory An Introduction (by Steven Tade

讀書筆記: 博弈論導論 - 16 - 不完整信息的動態博弈信號傳遞博弈

perfect nali 解釋引入 -s 如何 ava java fec 讀書筆記: 博弈論導論 - 16 - 不完整信息的動態博弈信號傳遞博弈信號傳遞博弈(Signaling Games) 本文是Game Theory An Introduction (by Ste

程序員的職業素養讀書筆記 - 第8章測試策略

單元測試一起 graph tro 直接開發人員統架構 char cif QA應該找不到任何錯誤 QA也是團隊的一部分 QA和開發人員應該緊密協作，攜手保障系統的質量。 QA在團隊中要扮演的便是需要規約定義者（specifier）和特性描述者（ch

讀書筆記【2018-06-20】

《願你歷盡千帆，歸來仍是少年》1、很多人覺得讀書沒用，學習知識沒有意義，其實，人在大學裡不只是為了學習知識，重點不是知識，重點是學習。學校是培養一個人學習能力的地方。什麼叫學習能力？獨立的觀察、分析、演算、對比、模仿、思考、創造以及表達、溝通、交流與合作。2、說到底，學習是一

機器學習讀書筆記（高斯混合模型GMM與EM）（改）

高斯混合模型（Gaussian mixture model，GMM）是單一高斯概率密度函式的延伸。GMM能夠平滑地近似任意形狀的密度分佈。欲瞭解高斯混合模型，那就先從基礎的單一高斯概率密度函式講起。（數學公式字型太難看了！！！！！！！）注意：這一一篇致力於詳

《算法導論》讀書筆記--第1、2章課後題（轉）

秦九韶 ons 全局變量思考 end exc ray 存在檢查第一章轉自http://www.cnblogs.com/batteryhp/p/4654860.html 思考題 1-1（運行時間的比較）確定時間t內求解的問題的最大規模。上面是網上提供的答案。

算法導論讀書筆記-第十四章-數據結構的擴張

步驟檢驗 int 由於旋轉著色推出 log 14.3 算法導論第14章數據結構的擴張一些工程應用需要的只是標準數據結構, 但也有許多其他的應用需要對現有數據結構進行少許的創新和改造, 但是只在很少情況下需要創造出全新類型的數據結構, 更經常的是通過存儲額外信息的

正面管教讀書筆記 06 關註於解決問題

方法無法 .html class 自己中學收獲容易 post 正面管教讀書筆記 06 關註於解決問題正面管教作者：簡·尼爾森（Jane Nelsen) 第6章關註於解決問題正面管教關註的是教給孩子要做什麽。我們要放棄一個觀念 - 人們首先要受到傷害，才能有

《算法導論》讀書筆記(一)

列排序 not else archive stdlib.h 二分查找 printf ima fine 　　本章是本書的開篇，介紹了什麽是算法，為什麽要學習算法，算法在計算機中的地位及作用。　　算法（algorithm）簡單來說就是定義良好的計算機過程，它取一個或一組值

《算法導論》讀書筆記(七)

背包問題 ostream 根據選擇性 pos 畢業論文結構 size 所有　　前言：貪心算法也是用來解決最優化問題，將一個問題分成子問題，在現在子問題最優解的時，選擇當前看起來是最優的解，期望通過所做的局部最優選擇來產生一個全局最優解。書中先從活動選擇問題來引入貪

讀書筆記 -- 算法導論 (序言+第一部分)

sta 輸出結果最長 ide class 比較工具 for 性方面什麽是基礎呢？就是要把我們大學所學的離散數學，算法與數據結構，操作系統，計算機體系結構，編譯原理等課程學好。對計算機的體系，CPU本身，操作系統內核，系統平臺，面向對象編程，程序的性能等要有深層

讀書筆記 -- 算法導論(第二部分排序和順序統計學)

每一個運行時間每次有時時間直接表示基礎上通過輸入數據的結構在實際中，待排序的數很少是孤立的值，它們通常是一個稱為記錄的數據集的一部分。每個記錄有一個關鍵字key，它是待排序的值。記錄的其他數據稱為衛星數據，即它們通常以key為中心傳送。在一個排序的

《Java編程思想》（Thinking in Java）讀書筆記——01對象導論

動態執行線程情況依賴關系 AI UC 技巧復制 1.9 容器關於容器，最常用的就是Collection接口裏的Set、List和Map所衍生的各種實現類，還有較為少用但又不可或缺的Queue。它們都有相同的點，即：提供了類似數組類型的數據聚合功能（有部分類型也

讀書筆記博客實戰之搜索引擎索引和流量漲跌策略分析[圖]

讀書筆記寫在前面：最近百度動作頻繁，變化十分大，以至於很多網站都出現了流量的大範圍波動，引起了站長們的思考和分析猜測，但通過數據來分析是最可靠的觀點，那麽我們今天就來分析一下這幾天百度在流量漲跌方面有什麽變化吧。實戰分析：讀書筆記博客，主要用於教育類話題的寫作和學習，采用老域名制作的新站，通過該網頁的排名變化

深入理解jvm虛擬機讀書筆記-垃圾收集器與內存分配策略（二）

具體實現地方比例並發解決垃圾收集替換 map 而是垃圾收集算法-標記清除算法標記清除算法是最基礎的收集算法。算法分為“標記”和“清楚”兩個階段：首先標記出所有需要回收的對象，在標記過程完成後統一回收所有被標記的對象。後續的收集算法都是基於這種思路對其不足進行

《資料探勘導論》讀書筆記（一）—— 緒論

書名：資料探勘導論(Introduction to Data Mining) 作者: Pang-Ning Tan / Michael Steinbach / Vipin Kumar 出版社: 人民郵電出版社譯者: 範明 / 範巨集建出版年: 2010-12-10 ISBN: 978711524100

強化學習（RLAI）讀書筆記第十三章策略梯度方法（Policy Gradient Methods）

強化學習（RLAI）讀書筆記第十三章策略梯度方法（Policy Gradient Methods） 13.1 Policy Approximation and its Advantages 13.2 The Policy Gradient Theore

讀書筆記: 博弈論導論 - 06 - 混合的策略

讀書筆記: 博弈論導論 - 06 - 混合的策略

混合的策略

策略，信念和期望收益

Rock-Paper-Scissor

嚴格劣勢策略的叠代消除和可合理化(IESDS and Rationalizability)

納什存在定理

參照

相關推薦