混合策略納什均衡計算

阿新 • • 發佈：2019-02-08

為了瞭解博弈論中引入“混合策略”概念的動機，我們來看用“劃線法”對相當簡單的“猜謎博弈”求解的結果，其結果如圖8.3.1所示。

求解的答案是，在純策略意義下“猜謎博弈”無解，即不存在在純策略意義下的納什均衡，也就是說，這個博弈得不到一個平衡穩定的結局。但經驗告訴我們，兩個兒童玩這樣的猜謎遊戲，一局難定勝負，一次又一次地玩下去，隨機地出一個手指，或者兩個手指，多次以後，基本勝負各半，也就是有了一個平衡的結果。這個啟示是，若一個博弈在純策略意義下沒有平衡的結局，但兩個局中人各自將自己的全部策略隨機地組織起來，且可能得到平衡的結局，換言之，在概率策略的意義下可能存在納什均衡。正是這樣的思考，引發了“混合策略”的概念。

一、混合策略

1．混合策略的定義
設 Ⅰ與Ⅱ是一個博弈的兩個局中人。他們的純策略集(c8.2)分別記為：

S={s₁,s₂,…s_n}和T={t₁,t₂, …t_m} （8.3.1）

x與y是兩個概率向量，即：

x=(x₁,x₂, …x_n)T；xi≥0（i=1,2, …n）;∑x_i = 1
y=(y₁,y₂, …y_m)T；yj≥0（j=1,2, …m）;∑y_j = 1

若 x表示對局中人Ⅰ的純策略集S的全體策略的一種概率選擇；y表示對局中人Ⅱ的純策略集T的全體策略的一種概率配置，即：

Ⅰ 以概率x₁選擇策略s₁，以概率x₂選擇策略s₂，……以概率x_n選擇策略s_n。
Ⅱ 以概率y₁選擇策略t₁，以概率y₂選擇策略t₂，……以概率y_m選擇策略t_m。

則稱x為局中人Ⅰ的混合策略；稱y為局中人Ⅱ的混合策略。

混合策略的實踐意義是表示局中人對各個純策略的偏好程度，或是對多次博弈達到均衡結局的各個純策略選擇的概率估計，因此體現了主觀概率的意義。

2．混合策略集

根據混合策略的定義，易見，純策略可視為特殊的混合策略。例如局中人Ⅰ的一個純策略策略s_i∈S 就是特殊的混合策略x' ：此概率向量的分量取值為：

x'_i

=1 ，x'_j=0 （j≠i）

也就是Ⅰ選擇策略s₁的概率為0（不妨設i≠1），……選擇策略s_i的概率為1，……選擇策略s_n的概率為0（不妨設i≠n）。有了這個見解，後文中，我們將記：

X={x∈R_n| x=(x₁,x₂, …x_n)T；x_i≥0（i=1,2, …n）; ∑x_i = 1}； (8.3.2)
Y={y∈R_m| y=(y₁,y₂, …y_m)T；y_j≥0（j=1,2, …m）;∑y_j = 1}。 (8.3.3)

並稱：X為局中人Ⅰ的策略集或混合策略集。Y為局中人Ⅱ的策略集或混合策略集。以及(x, y) ∈X×Y為博弈的混合策略結局。

注意到純策略集S是一個有限集，由它生成的凸集，也就是單純形（參閱第二章有關內容）可表示為：

可見，混合策略集X與純策略集S生成的凸集（單純形）1－1對應（在數學上稱為同構），因此可以把混合策略集X“看成”由純策略集S拓展的凸集（單純形），而且集S是集X的極點子集。同理可以把混合策略集Y“看成”由純策略集T拓展的凸集（單純形），而且集T是集Y的極點子集。按照這樣的理解，就不難把握混合策略的概念，即每一個混合策略x表示了由全部純策略s_i∈S以凸組合方式產生的一個策略。

3．混合策略結局的盈利函式

設博弈的局中人Ⅰ與Ⅱ各自的純策略集S和T，以及各自的混合策略集X、Y分別由式（8.3.1）、式（8.3.2）和式（8.3.3）定義。博弈的盈利矩陣模型為：

我們定義局中人Ⅰ的盈利矩陣為：

定義局中人Ⅱ的盈利矩陣為：

則定義混合策略結局的盈利函式如下：

(1) 任取s_i∈S，任取y∈Y，定義結局（s_i, y）的盈利函式為：

（8.3.4）

(2) 任取t_j∈T，任取x∈X，定義結局（x, t_j）的盈利函式為：

(8.3.5)

(3) 任取x∈X，任取y∈y，定義結局（x, y）的盈利函式為：

(8.3.6)

(8.3.7)

將式(8.3.6)給出的u₁(x,y)的定義與(8.3.4)給出的u1(s_i,y)的定義作聯絡分析，以及將式(8.3.7)給出的u₂(x,y)的定義與(8.3.5)給出的u₂(x,t_j)的定義作聯絡分析，容易得出u₁(x,y)以及u₂(x,y)有下列等價的表示式：

(8.3.9)

(8.3.10)

二、混合策略的納什均衡

（一）混合策略納什均衡的概念

    1、混合策略納什均衡的定義
    設博弈的局中人Ⅰ與Ⅱ各自的純策略集S和T，以及各自的混合策略集X、Y分別由式（8.3.1）、式（8.3.2）和式（8.3.3）定義。
    若一個混合策略的結局(x, y)∈X×Y滿足下列條件：

（1） (8.3.11)

（2） (8.3.12)

則稱混合策略的結局(x, y)是納什均衡。

2、混合策略納什均衡的含義
因為可以把混合策略集X“看成”以純策略集S為極點子集而拓展的凸集（單純形）。因此根據定義在凸集上的函式（稱為凸函式）的性質，可以證明,若式（8.3.11）成立，則下式也必然成立：

(8.3.13)

類似地，若式（8.3.12）成立，則下式也必然成立：

(8.3.14)

式（8.3.13）及式（8.3.14）表示。x是局中人Ⅰ對局中人Ⅱ選擇了策略y後的最優策略（條件盈利最大），以及y是局中人Ⅱ對局中人Ⅰ的選擇了策略x後的最優策略（條件盈利最大）。

由於在博弈中局中人Ⅰ和局中人Ⅱ都選擇“理性”行動，這樣雙方的博弈將在結局（x, y）下達到均衡狀態。

[例8.3.1] 驗證x=(1/2, 1/2)^T , y=(1/2, 1/2)^T 構成的混合策略結局（x, y）是“猜謎博弈”的納什均衡。

解 “猜謎博弈”的模型是：

純策略集S={1，2}（即{出一指，出兩指}），純策略集T={1，2}。由式（8.3.4）、式（8.3.5）、式（8.3.6）和式（8.3.7）。

因此下列不等式成立

由式（8.3.8）和式（8.3.8）知，混合結局（x, y）是“猜謎博弈”的納什均衡。

（二）”2策略博弈“的求納什均衡的方法

[定理8.3.1]
若博弈的局中人Ⅰ與Ⅱ各自的純策略集S和T都是2策略集：

S={s₁,s₂ }和T={t₁,t₂ }

則混合策略結局（x, y）是納什均衡的充要條件是：

(8.1.15)

(8.1.16)

證明可設：

先證必要性，設（x, y）是納什均衡。由式 (8.3.9)

由納什均衡的含義，混合策略x是局中人Ⅰ在預測對局中人Ⅱ選擇y 下的最優策略，因此由：

即

再正充分性，設u1(s₁,y)=u1(s₂,y),則

同理可得：

從而由納什均衡的定義式（8.3.11）和式（8.3.12）可知（x, y）是納什均衡。

[例8.3.2] 求圖8.3.2給出的博弈的納什均衡。

解由式（8.3.4）

由式（8.3.15 ）的要求解

2q-1=0
∴ q=1/2

由式（8.3.5）

由式（8.3.16 ）的要求解

故求得納什均衡

三、混合策略納什均衡的兩則應用

我們介紹“監察博弈”和“共同投資博弈”來認識混合策略納什均衡的典型應用

（一）監察博弈

1、監察博弈的模型
代理商為委託人幹活，有兩個策略可供選擇：工作（W）與偷懶（S）。假設工作使代
商花費g，由此獲得委託人付給他的工資w（w>g是一個合理的假設，否則代理商沒有任何工作積極性）。委託人在監督方面也有兩個可供尋則的純策略：檢查（I）與不檢查（N）。如果委託人檢查需要費用h，以此代價換得代理商是否在偷懶的資訊。一旦發現代理商偷懶，則扣除工資作為懲罰，若代理商工作而不偷懶，則將為委託人增加價值v的財產（顯然v>w）。如果這些資訊是共同知識，兩個局中人進行完全資訊靜態博弈。進而, 不妨假設g>h>0，即抓住主要矛盾，忽視次要情況，以簡便討論。這個博弈的盈利矩陣如圖8.3.3所示。

    2．求圖監察博弈的納什均衡，並求委託人應付給代理人的工資的參考值。
    （1）求圖監察博弈的納什均衡。
    首先用劃線法試求純策略納什均衡，結果如圖8.3.3所示，可見，監察博弈在不存在純策略納什均衡。下面依據定理8.3.1求混合策略納什均衡。

由u₁(W,y)=u₁(S,y),得：

(1-q)w=w-g (8.3.17)

實際上（8.3.17）式左端是代理商偷懶時的期望盈利，而右端是代理商工作時的期望盈利。因此（8.3.17）式表示，在納什均衡中委託人所取的混合策略y，必須使得代理商在工作或偷懶之間的選擇由於平均盈利相等而表現出無所謂的態度。解（8.3.17）式，得：

q=g/w (8.3.18)

再由

(8.3.19)

(8.3.20)

由u₂(x,I)=u₂(x,N)得：

(8.3.21)

類似地（8.3.21）式表示，在納什均衡中代理商所取的混合策略x，必須使得委託人在選擇檢查還是不檢查方面持無所謂的態度。解（8.3.21）式，得：

p=h/w (8.3.22)

綜上所述，我們得到監察博弈的混合策略解，即混合策略納什均衡：

((h/w,1-h/w),(g/w,1-g/w))

（2）確定委託人應付給代理人的工資的參考值。

由(8.3.10)式，以及(8.3.19)式和(8.3.20)式委託人的期望盈利是：

(8.3.23)

將p=h/w和q=g/w代入(8.3.23)式，即求得在納什均衡時的委託人的期望盈利：

(8.3.23)

可見在納什均衡時的委託人的期望盈利與代理商為他增加的價值v、委託人的檢查費用h以及委託人支付給代理商的工資w有關，一般地v與h可視作固定。對委託人而言，他應支付給代理商的工資，應該以期望盈利為最大為參考目標，從而由高等數學的極值定理，參考工資w應使下式成立：

可作為支付給委託人應支付給代理商的工資的參考值。

（二）共同投資博弈

1、共同投資博弈模型
有兩個投資者，共同投資一個較大的專案，他們可以獲得較大的回報。但若他倆中有一人抽出資金用於一個小專案，抽出者儘管比投資較大專案時收益要小，但他肯定可以獲得相應回報，然而他的這一做法將使較大專案陷於困境，會使另一投資者蒙受損失。是冒一定風險堅持投資於較大的專案，以獲取較大的回報，還是抽回資金投資於小專案以圖有個“旱澇保收”這就是“共同投資博弈”要解決的問題。圖8.3.4給出了這個博弈的模型，其中的資料是假設的，但能刻畫這個博弈的各種結局是的局中人的收益。模型中U表示局中人Ⅰ堅持投資大專案，D表示局中人Ⅰ抽回資金投資小專案；模型中L表示局中人Ⅱ堅持投資大專案，R表示局中人Ⅱ抽回資金投資小專案。

（1）“有效”最優均衡
用劃線法求純策略解，如圖8.3.4所示。博弈存在兩個純策略均衡：（U，L）與（D，R）, 毫無疑問結局（U，L）是“有效”（經濟學概念）的最優結局，因為（U，L）是在不損害他人的前提下，局中人將不可能再增加自己的利益，因此在經濟上也是有效結果。

（2）風險佔優均衡
從風險佔優的角度來考慮，對局中人Ⅰ來說，策略D比策略U更“安全”一些，因為局中人Ⅰ只要選擇了D，不管局中人Ⅱ如何行動，局中人Ⅰ至少可以獲得盈利7，或者更好一些（盈利8）。但倘若他取策略U，儘管他可能獲得博弈的最高盈利9，然而也存在著落得一無所有的可能，即時，因此：

風險佔優要考慮的是：局中人Ⅱ取R的可能性有多大時，局中人Ⅰ只要選擇 D的盈利會大於選擇U的盈利。

我們可設局中人Ⅱ取R概率為y，這時局中人Ⅰ取U時的期望盈利為：

u₁(U,y)=9(1-y)+0*y=9-9y

而局中人Ⅰ取策略D時的期望盈利為：

u₁(D,y)=8(1-y)+7y=8-y

解不等式：

9-9y<8-y

得y≥1/8。

這表明，如果局中人Ⅰ預測到局中人Ⅱ取策略R的概率大於1/8的話，從期望盈利考慮，局中人Ⅰ應採取D。注意到盈利矩陣關於兩個局中人是對稱的，同樣的討論告知，如果局中人Ⅱ預測到局中人Ⅰ取策略D的概率大於1/8的話，從期望盈利考慮，局中人Ⅰ應採取R。1/8是個小概率，因此一般來說，從風險佔優角度，（D，R）優於（U，L）。

混合策略納什均衡計算

混合策略納什均衡計算

兩人零和博弈的納什均衡

Codeforces 98E Help Shrek and Donkey 納什均衡

博弈論納什均衡囚徒困境智豬博弈

納什均衡(Nash equilibrium)及經典案例

[學習筆記] 量產毒瘤題 - 納什均衡 - 字尾陣列 - 學習筆記

初學者關於貝葉斯納什均衡各類符號的一點理解

海盜分金（納什均衡）

納什均衡-- 硬幣正反

PS中混合模式是什麽意思？

混合模式為什麽成為占有率最高的app開發技術

java基礎—常用的GC策略，什麽時候會觸發YGC，什麽時候觸發FGC？

混合顏色的色值計算公式

高斯混合模型的重疊度計算（Overlap Rate, OLR）

博弈論的納什平衡的兩個例題

混合雲為什麽是大中型企業“上雲”的首選？

【數量技術宅|金融資料系列分享】套利策略的價差序列計算，恐怕沒有你想的那麼簡單

雲計算到底是個什麽？

Dubbo負載均衡策略

js混合計算字符串字節長度

混合策略納什均衡計算

相關推薦