1. 程式人生 > >博弈論 斯坦福game theory stanford week 2.0_

博弈論 斯坦福game theory stanford week 2.0_

通過 由於 note rap nas 斯坦福 校驗 跳過 過去


title: 博弈論 斯坦福game theory stanford week 2-0
tags: note
notebook: 6- 英文課程-15-game theory
---

博弈論 斯坦福game theory stanford week 2-0

混合策略和納什均衡

一個例子

我們從一個例子說起,我們說美國人為了保護自己的利益,在索馬裏設卡安檢,我們不妨考慮這樣的博弈問題,說在索馬裏有很多的路段,安檢者和恐怖襲擊者是博弈者。如果襲擊和安檢發生在同一地點,那麽襲擊者會受到損失,如果不是,襲擊者會得到好處。對於檢查者問題正好相反。

但是由於沒有相應的情報支持,兩者的決策只能依靠隨機進行,並不會產生固定的決策,這樣的策略稱為混合策略。

混合策略,

Kv
就像上面的例子一樣,我們考慮這個決策問題:

技術分享圖片

兩個人的利益看起來並不能通過固定的選擇方式進行分割,只能通過隨機的選擇,這樣就是混合策略。

下面我們定義下這種決策,

  • 決策:技術分享圖片,決策是行動技術分享圖片的一個隨機變量
  • 純策略: 在概率中只有一個行為可以采用。
  • 混合策略: 在我們的策略中,可以采用多種策略。
    在這些策略中,所有的行為稱為策略的支撐。

我們還要定義所有的策略技術分享圖片
我們還要定義所有策略的收益技術分享圖片

在上述的情況下,我們可以對我們的收益和支出進行概率性的討論。

我們可以定義期望的收益如下:

技術分享圖片

第一行的公式是說,當前的收益是所有的行為帶來的利益的加權平均值,第二行說我們可以使用貝葉斯公式來計算每一個的可能性。

最優響應和納什均衡

技術分享圖片

借助最優相應的概率,我們將上述的概率化思想融入進來,
得到一個定理:

每一個完整的博弈都有一個納什均衡

完整的博弈的定義是什麽:只要一個博弈,擁有一定的數量的博弈者,有著一定的行為,有著完整的收益矩陣,那麽就是一個完整的博弈。

做一個說明:我們之前說的沒有納什均衡是說沒有純粹的納什均衡,但是它可以有混合的納什均衡。

比如我們前面提到的例子,如下圖:

技術分享圖片

我們的混合的納什均衡就是:
技術分享圖片
這個樣子的

要強調混合的概率是隨著不同的問題決定的,那麽混合的概率是如何決定的呢,我們可以認為當所有的博弈者都不願意再改變他們的概率的時候,就陷入了納什均衡。

納什均衡的計算

一個例子

通過這樣的一個示例我們討論納什均衡的計算方法:
技術分享圖片


我們不得不說再一般的條件下,納什均衡是十分難以計算的,不過如果你合一對支持進行猜測的情況下,我們可以相對容易的計算納什均衡。

再上圖情況下,我們假設讓一個人選b的概率為技術分享圖片,選F的概率就是技術分享圖片
再這個情況下,另外一個決策者用混合策略來考慮這個問題,他需要保證對方這兩種博弈行為對自己來說是一種平衡的收益,因為只有這樣,另外一個博弈者的收益才不會因為對方的選擇而發生改變。因此我們采用如下的策略列出方程:

技術分享圖片

使用混合策略的原因

  • 通過隨機性來迷惑你的對手
  • 通過隨機性來應對不確定性

多方博弈問題

兩個例子

線性補充問題(linear complementarity problem)

支持計數方法(support enumeration method)

PPAD問題

美國加州大學伯克利分校的克裏斯托斯·帕帕迪米特裏歐(Christos Papadimitriou) 教授定義了PPAD(polynomial parity arguments on directed graphs,有向圖的多項式校驗參數)計算復雜類來描述經濟學中的計算問題。並與其合作者一起證明了在4 人及以上的博弈中,納什均衡的計算是屬於PPAD-Complete 的。

技術分享圖片

通過上述的圖片可以看到,PPAD問題是一類NP問題。

簡要的發展歷史

  1. 1928:von 提出兩個人的零和博弈的均衡問題
  2. 1950:nash 再所有博弈種類提出多人博弈的均衡問題

lemke-howson 算法

LCP問題,線性補充方程問題

技術分享圖片

其中技術分享圖片代表了第i個人使用方案k的概率。
Ai代表了每一個博弈者的行為,那麽技術分享圖片就表達當博弈者1采用j策略的平均獲得。
技術分享圖片代表了納什均衡中的獲得,從而技術分享圖片代表了兩者的差距

好吧這裏我們先跳過去。
~~

納什均衡的用例

點球問題

我們可以將點球問題當作是一個博弈的問題,對於一個點球來說,守門員撲球的方向和球員踢球的方向是一種博弈,如果兩者方向相同,那麽球有更大的幾率被撲出。

技術分享圖片

問題簡化成上述圖片

上述問題是我們已經討論過的了,概率是0.5 0.5,不過如果問題編程了這個樣子呢,如圖:
技術分享圖片

我們將其中一個,也就是我們認為踢球者的右腳水平比較差,可能不會百分百進球,那麽博弈的納什均衡會發生什麽呢?
我,我們發現納什均衡點發生了移動,守門員傾向於撲向右邊。而球員傾向於撲向左邊。

分別是3/7 4/7 和4/7 3/7

博弈論 斯坦福game theory stanford week 2.0_