1. 程式人生 > >讀書筆記: 博弈論導論 - 06 - 混合的策略

讀書筆記: 博弈論導論 - 06 - 混合的策略

分布 ani cnblogs resp exist right 問題 可能 區間

讀書筆記: 博弈論導論 - 06 - 混合的策略

混合的策略

本文是Game Theory An Introduction (by Steven Tadelis) 的學習筆記。

策略,信念和期望收益

  • 混合策略
    玩家i的有限純策略集合\(S_i = {s_{i1}, s_{i2}, \cdots, s_{im}}\)
    \(\Delta S_i\)定義為\(S_i\)的單純形,是在\(S_i\)上所有概率分布的集合。
    玩家i的一個混合策略(mixed strategy)是\(\sigma_i \in \Delta S_i\)
    \[ \sigma_i = (\sigma_i(s_{i1}), \sigma_i(s_{i2}), \cdots, \sigma_i(s_{im})) \where \\sigma_i(s_{i}) \text{ : the probability that player i plays s_{i}} \]

兩個明顯的條件:
\[ \sigma_i(s_{i}) \geq 0, \forall s_i \in S_i \\sum_{s_i \in S_i} \sigma_i(s_{i}) = 1 \]

  • \(\Delta S_i\)的例子:(rock-paper-scissor)
    \(\Delta S_i\) = {(\sigma_i(R), \sigma_i(P), \sigma_i(S)) : \sigma_i(R), \sigma_i(P), \sigma_i(S) \geq 0, \sigma_i(R) + \sigma_i(P) + \sigma_i(S) = 1}$
    表示所有\((\sigma_i(R), \sigma_i(P), \sigma_i(S))\)

    對,使得每個值都大於等於0,並且每個值的和為1。

  • \(\sigma(\dot)\)支持策略\(s_i\)(\(s_i\) is in the support of \(\sigma(\dot)\))
    給定一個玩家i的混合策略\(\sigma(\dot)\),如果\(\sigma(s_i) > 0\),則稱\(\sigma(\dot)\)支持純策略\(s_i\)

  • 連續策略集的混合策略
    玩家i的純策略集合\(S_i\)是一個值區間,則玩家i的一個混合策略是累積分布函數\(F_i : S_i \to [0, 1], \ where \ F_i(x) = Pr{s_i < x>}\)
    如果\(F_i(\dot)\)

    在密度\(f_i(\dot)\)上可微分,並且\(f_i(\dot) > 0\),則稱\(F_i(\dot)\)支持純策略\(s_i\)

  • 信念(belief)
    信念\(\pi_i \in \Delta S_{-i}\)代表玩家i認為對手采用\(s_{-i} \in S_{-i}\)的概率。

  • 期望收益(Expected Payoffs)
    玩家i選擇策略\(s_i \in S_i\),並且對手選擇混合策略\(\sigma_{-i} \ \Delta_{-i}\),的期望收益:
    \[ v_i(s_i, \sigma_{-i}) = \sum_{s_{-i} \in S_{-i}} \sigma_{-i}(s_{-i}) v_i(s_i, s_{-i}) \]
    玩家i選擇混合策略\(\sigma_i \in \Delta S_i\),並且對手選擇混合策略\(\sigma_{-i} \ \Delta_{-i}\),的期望收益:
    \[ v_i(\sigma_i, \sigma_{-i}) = \sum_{s_{i} \in S_{i}} \sigma_{i}(s_{i}) v_i(s_i, s_{-i}) = \sum_{s_i \in S_i} ( \sum_{s_{-i} \in S_{-i}} \sigma_{i}(s_{i}) \sigma_{-i}(s_{i-}) v_i(s_i, s_{-i}) ) \]

  • 混合策略的納什均衡
    混合策略組合\(\sigma^* = (\sigma_1^*, \sigma_2^*, \cdots, \sigma_n^*)\)是一個納什策略,如果對於每個玩家\(\sigma_i^*\)都是最佳響應。
    \[ v_i(\sigma_i^*, \sigma_{-i}^*) \geq v_i(\sigma_i, \sigma_{-i}^*), \ \forall \sigma_i \in \Delta S_i \]

推論 6.1

如果\(\sigma^*\)是一個納什博弈,並且\(\sigma^*支持\)s_i\(和\)s‘_i$,則
\(v_i(s_i, \sigma_{-i}^*) = v_i(s'_i, \sigma_{-i}^*) = v_i(\sigma^*, \sigma_{-i}^*)\)

Rock-Paper-Scissor

斷言 6.1:

如果一個玩家選擇純策略,另一個玩家選擇混合策略,則不存在納什均衡。

斷言 6.2:

如果至少有一個玩家選擇只有兩個純策略的混合策略,則不存在納什均衡。

嚴格劣勢策略的叠代消除和可合理化(IESDS and Rationalizability)

  • 嚴格劣勢
    \(s'_i \in S_i\)嚴格劣勢於\(\sigma_i \in \Delta S_i\),如果滿足條件:
    \[ v_i(\sigma_i, s_{-i}) > v_i(s'_i, s_{-i}), \ \forall s_{-i} \in S_{-i} \\]

  • 不可能是一個最佳響應
    對於玩家i的混合策略\(\sigma_i \in \Delta S_i\),這個混合策略作為最佳響應的對手混合策略\(\sigma_i \in BR_i(\sigma_{-1})\),如果對手的任何混合策略\(\sigma_{-1} \in \Delta S_{-i}\)都不在玩家i的信念中,則\(\sigma_i \in \Delta S_i\)不可能是一個最佳響應。

斷言

一個劣勢混合策略\(sigma_i\)不可能是一個最佳響應。

推論 6.2

任何兩人博弈中,策略\(sigma_i\)是一個嚴格劣勢純策略,當且僅當策略\(sigma_i\)不可能是一個最佳響應。

納什存在定理

納什存在定理(Nash‘s existence Theorem)

任何普通形式、具有限策略集合的博弈存在一個納什均衡的混合策略。
納什存在定理的證明用到了不動點定理。

布勞威爾不動點定理(Brouwer‘s Fixed-Point Theorem)

如果f(x)是一個連續函數從域[0, 1]到[0, 1]\(f:[0, 1] \to [0, 1]\),則存在至少一個點\(f(x^*) = x^*, x^* \in [0, 1]\)
證明過程簡介:連續函數f(x)一定和函數\(f_1(x) = x\)至少有一個交點。

  • 最佳響應對應(collection of best response correspondence)
    最佳響應對應集合\(BR \equiv BR_1 \times BR_2 \times \cdots \times BR_n\),映射$\Delta S \equiv \Delta S_1 \times \Delta S_2 \times \cdots \times \Delta S_n $ 到自身。
    也就是說:\(BR : \Delta S \rightrightarrows \Delta S\), \(BR(\sigma) \subset \Delta S, \ for \ \sigma \in \Delta S\)

角谷不動點定理(Kakutani Fixed-Point Theorem)

一個對應\(C: X \rightrightarrows X\)有一個不動點,如果以下四個條件都滿足:

  1. X是非空的,緊湊的,\(\mathbb{R}^n\)的凸子集
  2. C(x)對於所有的x都非空。
  3. C(x)對於所有的x都是凸的。
  4. C有一個閉合圖。
  • 凸的(convex)
    集合\(X \subseteq \mathbb{R}^n\)是凸的,如果集合X中任何兩點的連線上的點都在集合X中。
  • 閉合的(closed)
    集合\(X \subseteq \mathbb{R}^n\)是閉合的,如果集合X邊緣點在集合X中。(0, 1]是非閉合的,[0, 1]是閉合的。
  • 緊湊的(compact)
    集合\(X \subseteq \mathbb{R}^n\)是緊湊的,如果集合X是閉合並且有界。[0, 1]是緊湊的,\([0, &infin;]\)是非緊湊的。
  • 閉合圖(closed graph)
    \(C: X \rightrightarrows X\)是閉合圖, 如果C是閉合的。

參照

  • Game Theory An Introduction (by Steven Tadelis)
  • 讀書筆記: 博弈論導論 - 01 - 單人決策問題
  • 讀書筆記: 博弈論導論 - 02 - 引入不確定性和時間
  • 讀書筆記: 博弈論導論 - 03 - 預備知識
  • 讀書筆記: 博弈論導論 - 04 - 理性和公共知識
  • 讀書筆記: 博弈論導論 - 05 - 理性和公共知識

讀書筆記: 博弈論導論 - 06 - 混合的策略