1. 程式人生 > >讀書筆記: 博弈論導論 - 07 - 完美信息的動態博弈 預備知識

讀書筆記: 博弈論導論 - 07 - 完美信息的動態博弈 預備知識

truct imp comm off tro markdown term 同時 orm

讀書筆記: 博弈論導論 - 07 - 完美信息的動態博弈 預備知識

完美信息的動態博弈 預備知識

本文是Game Theory An Introduction (by Steven Tadelis) 的學習筆記。

動態博弈(Dynamic Games)

靜態博弈是每個玩家同時(並且在不知道其他玩家選擇的情況下)做出選擇。
動態博弈引進了玩家做出選擇的先後次序。
註意:玩家i做出了選擇後,玩家j知道玩家i做出了選擇,但是不一定知道玩家i做出了什麽選擇。

擴展形式博弈(The Extensive-Form Game)

擴展形式博弈的表達結構:

  1. Set of player, N.
  2. Players payoff as a function of outcomes, \(\{ v( \cdot ) \}_{i \in N}\)
    .
  3. Order of moves.
  4. Actions of players when they can move.
  5. The knowledge that players have when they can move.
  6. Probability distributions over exogenous events.
    "exogenous"是指預先確定的分布概率自然選擇(不依賴於玩家的選擇)
  7. The structure of the extension-form game represented by 1-6 is common knowledge among all the players.

博弈樹(game tree)

  • 博弈樹
    博弈樹用來表示擴展形式博弈。
    一個博弈樹是一個帶先後關系\(x > x'\)的節點集合\(x \in X\)
    \(x > x'\)表示x在x‘之前。
    每個節點只有一個父。
    先後關系(precedence relation)具有:
    傳遞性(transitive): \(x > x', x' > x'' \implies x > x''\)
    不對稱性(asymmetric): \(x > x' \implies \ not \ x' > x\)


    不完整性(incomplete): 不是每一對x, y有先後次序。
    有一個根節點,標記為\(x_0\),是其它所有節點的祖先。
    沒有子的節點稱為末端節點(terminal nodes),表示為\(Z \subset X\)
    末端節點表示為結果,並關聯收益函數。
    非末端節點被賦予1)一個玩家\(i(x)\),和行動集合\(A_i(x)\),或者2)自然(Nature)。

  • 信息集合列表(the collection of information set of player i)
    玩家i的信息集合(information set)列表,每個信息集合\(h_i \in H_i\)博弈樹中的玩家i運行的部分節點,具有以下屬性:
  1. 如果\(h_i = \{ x \}\)是一個單例集合,則運行\(x\)的玩家i知道他位於\(x\)節點上。
  2. 如果\(h_i = \{ x, x', \cdots \}\),則運行\(x\)的玩家i不知道他位於\(x\)節點上還是位於\(x'\)節點上。
  3. 如果\(h_i = \{ x, x', \cdots \}\),則\(A_i(x') = A_i(x)\)

更多的解釋,這是為完美信息的定義打鋪墊。
如果玩家i的信息集列表都是\(h_i = \{ x \}\),則表明玩家i知道:1) 行動次序, 2)對方的行動是什麽。
如果玩家i的信息集列表存在是\(h_i = \{ x, x', \cdots \}\),則表明玩家i知道:1) 行動次序。但是不知道: 1)對方的行動是什麽。
這是導致玩家i: 1)性質2:不決定位於博弈樹上的那個節點,因此,性質3:\(A_i(x') = A_i(x)\)也必然成立。

  • 完美信息博弈
    一個完整信息博弈中,每個玩家i的每個信息集都是單例集合,並且沒有自然(Nature)選擇,則這個博弈是完美信息博弈。
  • 不完美信息博弈
    一個完整信息博弈中,存在一些信息集不是單例集合,或者有自然(Nature)選擇,則這個博弈是完美信息博弈。

可以將自然選擇理解為擲骰子、抽簽、盲牌。

  • 擴展形式博弈的純策略
    玩家i的一個純策略是一個完整計劃,描述了在每一個信息集合上,玩家i會選擇哪個純行動。

  • 擴展形式博弈的純策略
    玩家i的一個純策略是影射: \(s_i: H_i \to A_I\),對於每個信息集\(h_i \in H_i\),有\(s_i(h_i) \in A_i(h_i)\)
    \(A_i(h_i)\)表示玩家i的一個信息集對應的行動集合。

  • 擴展形式博弈的策略數
    \[ |S_i| = m_1 \times m_2 \times \cdots \times m_k \where \|S_i| \text{ : the number of elements in } S_i \m_j \text{ : the number of actions in the j-nd information set} \k \text{ : the number of information sets} \]

  • 混合策略(mixed strategy)
    一個混合策略是一個在各個純策略上的概率分布。

  • 行為策略(behavioral strategy)
    一個行為策略:對每一個信息集\(h_i \in H_i\),有一個在各個行動\(a_i(h_i) \in A_i(h_i)\)上的概率分布,表示為
    \(\sigma_i : H_i \to \Delta A_i(h_i)\)
    \(\sigma_i(a_i(h_i))\) : 玩家i,在信息集\(h_i\)上,選擇行動\(a_i(h_i) \in A_i(h_i)\)的概率。

  • 純策略 vs 混合策略 vs 行為策略
    純策略使用一個行動作為策略結果。
    混合策略在玩遊戲前是一個行為的概率分布,最終還是使用了一個純策略。
    行為策略在玩遊戲前和玩的時候,都是一個行為的概率分布。

  • 完美回憶博弈(a game of perface recall)
    在完美回憶博弈中,每個玩家都不會忘記之前知道的信息集。

  • 均衡路徑(the equilibrium path)
    在一個擴展形式博弈中,行為策略的納什均衡\(\sigma^* = (\sigma_1^*, \cdots, \sigma_n^*)\)
    如果一個信息集有可能到達這個納什均衡\(\sigma^*\),則稱這個信息集在均衡路徑上。
    如果一個信息集不可能到達這個納什均衡\(\sigma^*\),則稱這個信息集不在均衡路徑上。

參照

  • Game Theory An Introduction (by Steven Tadelis)
  • 讀書筆記: 博弈論導論 - 01 - 單人決策問題
  • 讀書筆記: 博弈論導論 - 02 - 引入不確定性和時間
  • 讀書筆記: 博弈論導論 - 03 - 預備知識
  • 讀書筆記: 博弈論導論 - 04 - 理性和公共知識
  • 讀書筆記: 博弈論導論 - 05 - 理性和公共知識
  • 讀書筆記: 博弈論導論 - 06 - 混合的策略

讀書筆記: 博弈論導論 - 07 - 完美信息的動態博弈 預備知識