混合策略納什均衡計算
為了瞭解博弈論中引入“混合策略”概念的動機,我們來看用“劃線法”對相當簡單的“猜謎博弈”求解的結果,其結果如圖8.3.1所示。
求解的答案是,在純策略意義下“猜謎博弈”無解,即不存在在純策略意義下的納什均衡,也就是說,這個博弈得不到一個平衡穩定的結局。但經驗告訴我們,兩個兒童玩這樣的猜謎遊戲,一局難定勝負,一次又一次地玩下去,隨機地出一個手指,或者兩個手指,多次以後,基本勝負各半,也就是有了一個平衡的結果。這個啟示是,若一個博弈在純策略意義下沒有平衡的結局,但兩個局中人各自將自己的全部策略隨機地組織起來,且可能得到平衡的結局,換言之,在概率策略的意義下可能存在納什均衡。正是這樣的思考,引發了“混合策略”的概念。
一、混合策略
1.混合策略的定義
設 Ⅰ與Ⅱ是一個博弈的兩個局中人。他們的純策略集(c8.2)分別記為:
S={s1,s2,…sn}和T={t1,t2,
…tm} (8.3.1)
x與y是兩個概率向量,即:
x=(x1,x2, …xn)T;xi≥0(i=1,2, …n);∑xi =
1
y=(y1,y2, …ym)T;yj≥0(j=1,2, …m);∑yj =
1
若 x表示對局中人Ⅰ的純策略集S的全體策略的一種概率選擇;y表示對局中人Ⅱ的純策略集T的全體策略的一種概率配置,即:
Ⅰ 以概率x1選擇策略s1,以概率x2選擇策略s2,……以概率xn選擇策略sn。
Ⅱ 以概率y1選擇策略t1,以概率y2選擇策略t2,……以概率ym選擇策略tm。
則 稱x為局中人Ⅰ的混合策略;稱y為局中人Ⅱ的混合策略。
混合策略的實踐意義是表示局中人對各個純策略的偏好程度,或是對多次博弈達到均衡結局的各個純策略選擇的概率估計,因此體現了主觀概率的意義。
2.混合策略集
根據混合策略的定義,易見,純策略可視為特殊的混合策略。例如局中人Ⅰ的一個純策略策略si∈S 就是特殊的混合策略x' :此概率向量的分量取值為:
x'i
也就是Ⅰ選擇策略s1的概率為0(不妨設i≠1),……選擇策略si的概率為1,……選擇策略sn的概率為0(不妨設i≠n)。有了這個見解,後文中,我們將記:
X={x∈Rn| x=(x1,x2, …xn)T;xi≥0(i=1,2,
…n); ∑xi = 1}; (8.3.2)
Y={y∈Rm| y=(y1,y2, …ym)T;yj≥0(j=1,2,
…m);∑yj = 1}。 (8.3.3)
並稱:X為局中人Ⅰ的策略集或混合策略集。Y為局中人Ⅱ的策略集或混合策略集。以及(x, y) ∈X×Y為博弈的混合策略結局。
注意到純策略集S是一個有限集,由它生成的凸集,也就是單純形(參閱第二章有關內容)可表示為:
可見,混合策略集X與純策略集S生成的凸集(單純形)1-1對應(在數學上稱為同構),因此可以把混合策略集X“看成”由純策略集S拓展的凸集(單純形),而且集S是集X的極點子集。同理可以把混合策略集Y“看成”由純策略集T拓展的凸集(單純形),而且集T是集Y的極點子集。按照這樣的理解,就不難把握混合策略的概念,即每一個混合策略x表示了由全部純策略si∈S以凸組合方式產生的一個策略。
3.混合策略結局的盈利函式
設 博弈的局中人Ⅰ與Ⅱ各自的純策略集S和T,以及各自的混合策略集X、Y分別由式(8.3.1)、式(8.3.2)和式(8.3.3)定義。博弈的盈利矩陣模型為:
我們定義局中人Ⅰ的盈利矩陣為:
定義局中人Ⅱ的盈利矩陣為:
則 定義混合策略結局的盈利函式如下:
(1) 任取si∈S,任取y∈Y,定義結局(si, y)的盈利函式為:
(8.3.4)
(2) 任取tj∈T,任取x∈X,定義結局(x, tj)的盈利函式為:
(8.3.5)
(3) 任取x∈X,任取y∈y,定義結局(x, y)的盈利函式為:
(8.3.6)
(8.3.7)
將式(8.3.6)給出的u1(x,y)的定義與(8.3.4)給出的u1(si,y)的定義作聯絡分析,以及將式(8.3.7)給出的u2(x,y)的定義與(8.3.5)給出的u2(x,tj)的定義作聯絡分析,容易得出u1(x,y)以及u2(x,y)有下列等價的表示式:
(8.3.9)
(8.3.10)
二、混合策略的納什均衡
(一)混合策略納什均衡的概念
1、混合策略納什均衡的定義
設 博弈的局中人Ⅰ與Ⅱ各自的純策略集S和T,以及各自的混合策略集X、Y分別由式(8.3.1)、式(8.3.2)和式(8.3.3)定義。
若 一個混合策略的結局(x, y)∈X×Y滿足下列條件:
(1) (8.3.11)
(2) (8.3.12)
則 稱混合策略的結局(x, y)是納什均衡。
2、混合策略納什均衡的含義
因為可以把混合策略集X“看成”以純策略集S為極點子集而拓展的凸集(單純形)。因此根據定義在凸集上的函式(稱為凸函式)的性質,可以證明,若式(8.3.11)成立,則下式也必然成立:
(8.3.13)
類似地,若式(8.3.12)成立,則下式也必然成立:
(8.3.14)
式(8.3.13)及式(8.3.14)表示。x是局中人Ⅰ對局中人Ⅱ選擇了策略y後的最優策略(條件盈利最大),以及y是局中人Ⅱ對局中人Ⅰ的選擇了策略x後的最優策略(條件盈利最大)。
由於在博弈中局中人Ⅰ和局中人Ⅱ都選擇“理性”行動,這樣雙方的博弈將在結局(x, y)下達到均衡狀態。
[例8.3.1] 驗證x=(1/2, 1/2)T , y=(1/2, 1/2)T 構成的混合策略結局(x, y)是“猜謎博弈”的納什均衡。
解 “猜謎博弈”的模型是:
純策略集S={1,2}(即{出一指,出兩指}),純策略集T={1,2}。由式(8.3.4)、式(8.3.5)、式(8.3.6)和式(8.3.7)。
因此下列不等式成立
由式(8.3.8)和式(8.3.8)知,混合結局(x, y)是“猜謎博弈”的納什均衡。
(二)”2策略博弈“的求納什均衡的方法
[定理8.3.1]
若 博弈的局中人Ⅰ與Ⅱ各自的純策略集S和T都是2策略集:
S={s1,s2 }和T={t1,t2 }
則 混合策略結局(x, y)是納什均衡的充要條件是:
(8.1.15)
(8.1.16)
證明 可設:
先證必要性,設(x, y)是納什均衡。由式 (8.3.9)
由納什均衡的含義,混合策略x是局中人Ⅰ在預測對局中人Ⅱ選擇y 下的最優策略,因此由:
即
再正充分性,設u1(s1,y)=u1(s2,y),則
同理可得:
從而由納什均衡的定義式(8.3.11)和式(8.3.12)可知(x, y)是納什均衡。
[例8.3.2] 求圖8.3.2給出的博弈的納什均衡。
解 由式(8.3.4)
由式(8.3.15 )的要求解
2q-1=0
∴ q=1/2
由式(8.3.5)
由式(8.3.16 )的要求解
故求得納什均衡
三、混合策略納什均衡的兩則應用
我們介紹“監察博弈”和“共同投資博弈”來認識混合策略納什均衡的典型應用
(一)監察博弈
1、監察博弈的模型
代理商為委託人幹活,有兩個策略可供選擇:工作(W)與偷懶(S)。假設工作使代
商花費g,由此獲得委託人付給他的工資w(w>g是一個合理的假設,否則代理商沒有任何工作積極性)。委託人在監督方面也有兩個可供尋則的純策略:檢查(I)與不檢查(N)。如果委託人檢查需要費用h,以此代價換得代理商是否在偷懶的資訊。一旦發現代理商偷懶,則扣除工資作為懲罰,若代理商工作而不偷懶,則將為委託人增加價值v的財產(顯然v>w)。如果這些資訊是共同知識,兩個局中人進行完全資訊靜態博弈。進而, 不妨假設g>h>0,即抓住主要矛盾,忽視次要情況,以簡便討論。這個博弈的盈利矩陣如圖8.3.3所示。
2.求圖監察博弈的納什均衡,並求委託人應付給代理人的工資的參考值。
(1)求圖監察博弈的納什均衡。
首先用劃線法試求純策略納什均衡,結果如圖8.3.3所示,可見,監察博弈在不存在純策略納什均衡。下面依據定理8.3.1求混合策略納什均衡。
由u1(W,y)=u1(S,y),得:
(1-q)w=w-g (8.3.17)
實際上(8.3.17)式左端是代理商偷懶時的期望盈利,而右端是代理商工作時的期望盈利。因此(8.3.17)式表示,在納什均衡中委託人所取的混合策略y,必須使得代理商在工作或偷懶之間的選擇由於平均盈利相等而表現出無所謂的態度。解(8.3.17)式,得:
q=g/w (8.3.18)
再由
(8.3.19)
(8.3.20)
由u2(x,I)=u2(x,N)得:
(8.3.21)
類似地(8.3.21)式表示,在納什均衡中代理商所取的混合策略x,必須使得委託人在選擇檢查還是不檢查方面持無所謂的態度。解(8.3.21)式,得:
p=h/w (8.3.22)
綜上所述,我們得到監察博弈的混合策略解,即混合策略納什均衡:
((h/w,1-h/w),(g/w,1-g/w))
(2)確定委託人應付給代理人的工資的參考值。
由(8.3.10)式,以及(8.3.19)式和(8.3.20)式委託人的期望盈利是:
(8.3.23)
將p=h/w和q=g/w代入(8.3.23)式,即求得在納什均衡時的委託人的期望盈利:
(8.3.23)
可見在納什均衡時的委託人的期望盈利與代理商為他增加的價值v、委託人的檢查費用h以及委託人支付給代理商的工資w有關,一般地v與h可視作固定。對委託人而言,他應支付給代理商的工資,應該以期望盈利為最大為參考目標,從而由高等數學的極值定理,參考工資w應使下式成立:
可作為支付給委託人應支付給代理商的工資的參考值。
(二)共同投資博弈
1、共同投資博弈模型
有兩個投資者,共同投資一個較大的專案,他們可以獲得較大的回報。但若他倆中有一人抽出資金用於一個小專案,抽出者儘管比投資較大專案時收益要小,但他肯定可以獲得相應回報,然而他的這一做法將使較大專案陷於困境,會使另一投資者蒙受損失。是冒一定風險堅持投資於較大的專案,以獲取較大的回報,還是抽回資金投資於小專案以圖有個“旱澇保收”這就是“共同投資博弈”要解決的問題。圖8.3.4給出了這個博弈的模型,其中的資料是假設的,但能刻畫這個博弈的各種結局是的局中人的收益。模型中U表示局中人Ⅰ堅持投資大專案,D表示局中人Ⅰ抽回資金投資小專案;模型中L表示局中人Ⅱ堅持投資大專案,R表示局中人Ⅱ抽回資金投資小專案。
(1)“有效”最優均衡
用劃線法求純策略解,如圖8.3.4所示。博弈存在兩個純策略均衡:(U,L)與(D,R), 毫無疑問結局(U,L)是“有效”(經濟學概念)的最優結局,因為(U,L)是在不損害他人的前提下,局中人將不可能再增加自己的利益,因此在經濟上也是有效結果。
(2)風險佔優均衡
從風險佔優的角度來考慮,對局中人Ⅰ來說,策略D比策略U更“安全”一些,因為局中人Ⅰ只要選擇了D,不管局中人Ⅱ如何行動,局中人Ⅰ至少可以獲得盈利7,或者更好一些(盈利8)。但倘若他取策略U,儘管他可能獲得博弈的最高盈利9,然而也存在著落得一無所有的可能,即時,因此:
風險佔優要考慮的是:局中人Ⅱ取R的可能性有多大時,局中人Ⅰ只要選擇 D的盈利會大於選擇U的盈利。
我們可設局中人Ⅱ取R概率為y,這時局中人Ⅰ取U時的期望盈利為:
u1(U,y)=9(1-y)+0*y=9-9y
而局中人Ⅰ取策略D時的期望盈利為:
u1(D,y)=8(1-y)+7y=8-y
解不等式:
9-9y<8-y
得y≥1/8。
這表明,如果局中人Ⅰ預測到局中人Ⅱ取策略R的概率大於1/8的話,從期望盈利考慮,局中人Ⅰ應採取D。注意到盈利矩陣關於兩個局中人是對稱的,同樣的討論告知,如果局中人Ⅱ預測到局中人Ⅰ取策略D的概率大於1/8的話,從期望盈利考慮,局中人Ⅰ應採取R。1/8是個小概率,因此一般來說,從風險佔優角度,(D,R)優於(U,L)。