1. 程式人生 > >經典博弈案例 "囚徒困境” 分析

經典博弈案例 "囚徒困境” 分析

博弈論又稱對策論,是研究兩人或多人之間競爭合作關係的一門科學。目前被大眾熟知的例子有:田忌賽馬等等。

而所謂的"囚徒困境"也是這樣的一個經典例子,大意是這樣的:

兩個嫌疑犯作案後被警察抓住,分別關在不同的屋子裡接受審訊。警察知道兩人有罪,但缺乏足夠的證據。警察告訴每個人:如果兩人都抵賴,各判刑一年;如果兩人都坦白,各判八年;如果兩人中一個坦白而另一個抵賴,坦白的放出去,抵賴的判十年。於是,每個囚徒都面臨兩種選擇:坦白或抵賴。

在這種情景下,兩個囚犯都可以做出自己的選擇:供出他的同伴,即與警察合作,從而背叛他的同夥;或者保持沉默,也就是與他的同夥合作,而不是與警察合作。(用雙變數矩陣來描述更易於理解)

如果兩人都抵賴,各判一年,顯然這個結果更好一些。囚徒們雖然彼此合作,堅不吐實,可為全體帶來最佳利益(無罪開釋),但在對方的表現不明的情況下,因為出賣同夥可為自己帶來利益(縮短刑期),也因為同夥把自己招出來可為他帶來利益,因此彼此出賣雖違反最佳共同利益,反而是自己最大利益所在。

如同博弈論的其他例證,囚徒困境假定每個參與者(即"囚徒")都是利己的,即都尋求最大自身利益,而不關心另一參與者的利益,這也就是經典經濟學中的"理性人假設"。參與者某一策略所得利益,如果在任何情況下都比其他策略要低的話,此策略稱為"嚴格劣勢",理性的參與者絕不會選擇。另外,沒有任何其他力量干預個人決策,參與者可完全按照自己意願選擇策略。


囚徒到底應該選擇哪一項策略,才能將自己個人的刑期縮至最短?兩名囚徒由於隔絕監禁,並不知道對方選擇;而即使他們能交談,還是未必能夠相信對方不會反口。就個人的理性選擇而言,檢舉背叛對方所得刑期,總比沉默要來得低。現設想困境中兩名理性囚徒會如何作出選擇:

若對方沉默時,背叛會讓我獲釋,所以會選擇背叛。

若對方背叛、指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。

二人面對的情況一樣,所以二人的理性思考都會得出相同的結論--選擇背叛。背叛是兩種策略之中的支配性策略。因此,這場博弈中唯一可能達到的納什均衡,就是雙方參與者都背叛對方,結果二人同樣服刑8年。

這場博弈的納什均衡,顯然不是顧及團體利益的帕累托最優解決方案。以全體利益而言,如果兩個參與者都合作保持沉默,兩人都只會被判刑1年,總體利益更高,結果也比兩人背叛對方、判刑8年的情況較佳。但根據以上假設,二人均為理性客觀的個人,並且只追求自己個人利益。均衡狀況會是兩個囚徒都選擇背叛,結果二人判決均比合作為高,總體利益較合作為低。這就是"困境"所在。例子漂亮地證明了:非零和博弈中,帕累托最優和納什均衡是相沖突的。而且納什均衡是較常發生的。