1. 程式人生 > >貝葉斯法則:預測未來

貝葉斯法則:預測未來

640?wx_fmt=png

本文節選自《演算法之美:指導工作與生活的演算法》

中信出版集團,2018年05月出版

人類獲得的所有知識都是不確定的、不準確的和不全面的。

——伯特蘭·羅素

明天太陽會照常升起。你可以用你的一切來打賭太陽會出來。

——安妮

1969年,J. 理查德·戈特三世在普林斯頓攻讀天體物理博士學位之前,他去歐洲旅行了一趟。他看見了柏林牆,那是8年前建成的。站在牆的影子下,這彷彿是冷戰的一個鮮明象徵,他開始思索這牆會將東德和西德地區繼續分割多久。

從表面上看,試圖做出這種預測有些荒謬。即使撇開地緣政治的不可預測性不說,這個問題僅在數學上似乎就很可笑:因為它試圖從一個單一資料點進行預測。

但是,儘管這看起來很可笑,但我們總是會根據需要做出這樣的預測。你到了一個外國城市的公共車站,也許其他遊客已經站在那裡等了7分鐘。下一班車什麼時候到?繼續等待是否值得?如果是這樣的話,在放棄之前你應該再那等多久?

或者你的一個朋友已經和某人約會了一個月,希望得到你的建議:邀請他們一起參加即將到來的人的婚禮是否太早?這種關係已經有了一個良好的開端,但是什麼時候開始制訂計劃比較合適呢?

谷歌的研究部主任彼得·諾維德曾進行過一次題為“資料的不合理有效性”的著名演講,該演講深究了“數十億瑣碎的資料點最終如何能被理解”。媒體不斷告訴我們,我們生活在一個“大資料時代”,計算機可以篩選這數十億的資料點並發現一些肉眼看不到的細節。但跟日常生活聯絡最密切的問題往往是另一種極端。我們的生活充滿“小資料”,我們就像看到柏林牆的戈特一樣,也就是通過一個單一的觀察,做一個推論。

那麼我們一般怎麼做呢?我們又應該怎樣做?

故事發生在18 世紀的英國,那時,有一個研究領域對偉大的數學思想家來說是不可抗拒的(對那些神職人員也是如此),那就是賭博。

貝葉斯牧師的倒推理

因此,如果我們相信過去的經驗,並把它作為我們判斷未來的標準,那這些標準就一定不是確定的。

——大衛•休謨

250 年前 ,貝葉斯牧師就很重視小資料預測問題,他來自英國迷人的溫泉城鎮坦布里奇韋爾斯,是一位長老會的牧師。

貝葉斯設想,如果我們買10 張新的、不熟悉的抽獎彩票,其中有5 張中獎,那麼要估計中獎概率就似乎相對容易:5/10,或50%。但是,如果我們只買了一張彩票,並贏得獎品呢?我們真的認為中獎的概率就是1/1,或是100%的?這似乎過於樂觀,不是嗎?如果是這樣的話,那中獎概率應該是多少?我們應該猜多少呢?

對於那些曾在不確定性推理歷史上產生如此重大影響的人來說,貝葉斯自己的故事也具有諷刺的不確定性。他出生於1701年或者1702年,出生地是英國的赫特福德郡,或是倫敦。在1746年,或1748年,或1747年,抑或是1749年,他寫了一篇在數學界最具影響力的論文,他卻未將它發表,並繼續做其他事情。

在這兩個事件之間我們有了更多的把握。作為牧師的兒子,貝葉斯去愛丁堡大學學習神學,並像他父親一樣被任命為牧師。他對數學和神學感興趣,並在1736年為牛頓全新的 “微積分”理論寫了一篇慷慨激昂的辯護書,以迴應喬治伯克利主教對牛頓的攻擊。這使他在1742年當選為皇家學會的成員,並被讚譽為“擅長几何、數學和哲學學習的紳士”。

1761年貝葉斯去世後,他的朋友理查德·普萊斯被要求整理他的數學論文,看是否有可釋出的內容。一篇文章引起了他的興趣,並令他特別興奮——他說這篇文章“極為出色,值得儲存”。這篇論文就論述了本文所討論的彩票問題:

讓我們想象一個人在抽獎的時候,對會不會中獎完全不知道,也不知道中獎和無獎的比例如何。讓我們進一步假設,他要從他之前瞭解到的無獎的數量來推測相對的中獎數量,並詢問他在這些情況下能做出什麼合理的結論。

貝葉斯的關鍵見解是,試圖使用我們看到的中獎和未中獎彩票來分析彩票來源於整體彩票池的方法,本質上是在倒推。他說,要做到這一點,我們需要先用假設向前推理。換句話說,我們首先需要確定,如果各種可能場景都成真的情況下,我們中獎的可能性有多少。這個被現代統計學家稱為“可能性”的概率給了我們解決問題所需要的資訊。

例如,假設我們買了三張彩票,三張都中獎了。現在,如果這種彩票中獎率特別高,所有彩票都能中獎,那我們的買三中三的中獎率就肯定會一直髮生,在這種情況下就是100% 的概率。但如果只有一半的彩票能中獎,那我們三張彩票的中獎率就是1/2×1/2×1/2, 也就是1/8。如果1 000 張彩票只有一張能中獎,那麼我們的中獎率將是1/1 000×1/1 000×1/1 000,也就是1×10–9。

貝葉斯認為,因此我們應該判斷如何能讓所有彩票都儘可能中獎而不是一半能中獎,或者儘可能使一半的彩票中獎而不是1/1 000。也許我們生來便擁有這種直覺,但貝葉斯的邏輯思維卻給我們提供了為這種直覺定量的方法。在同等條件下,我們應該想象成所有彩票都中獎的概率比一半中獎的概率要高8 倍,因為我們在這種情況下買的彩票正好是8 倍多的中獎概率(100% 與1/8)。同樣的,一半的彩票中獎的概率正好是1 000 張中一張中獎的1.25 億倍,我們已經通過比較1/8 和1×10–9 而得知其中的原因。

這是貝葉斯論證的關鍵所在。從假設的過去向前推理,並奠定了理論基礎,讓我們可以向後找到最大的可能性。

這是一個巧妙和創新的方法,但它對抽獎問題沒能提供一個完整的答案。普萊斯在向皇家學會提交貝葉斯的研究結果時,他能夠確定,如果你買了一張彩票並中獎了,那麼至少有一半的彩票都能中獎的概率是75%。但是,考慮概率的概率問題會讓人有點兒頭暈。更重要的是,如果有人在催促我們:“好吧,但是你認為彩票的中獎率到底是多少?”我們仍然不知道該說什麼。

如何將所有可能的假設提取到單一的期望值,這一問題將在短短几年後由法國數學家皮埃爾·西蒙·拉普拉斯解答。

拉普拉斯定理

1749年,拉普拉斯生於諾曼底,他父親送他到一所天主教學校,並希望他成為神職人員。拉普拉斯繼續在卡昂大學學習神學,他不像貝葉斯那樣一生都能平衡對神學和科學的奉獻,因此他最終放棄了做牧師,而專攻數學。

1774年,在完全不知道貝葉斯以前做的工作的情況下,拉普拉斯發表了一篇雄心勃勃的論文,名為“事件原因的概率論”。在這篇論文中,拉普拉斯終於解決了如何從觀察到的效果向後推理並找出可能的原因這一問題。

如我們所見,貝葉斯找到了一種比較兩種假設的相對可能性的方法。但是在彩票這一問題上,這裡的假設幾乎就是無窮的——每一箇中獎彩票可能的比例。利用微積分這一曾備受爭議卻受到貝葉斯堅決擁護的數學學科,拉普拉斯能夠證明這個巨大範圍的可能性,這可以提取成一個單一的預估值和一個非常簡潔的數字。他表示,如果我們提前真的不知道彩票的情況,然後當我們第一次買的三張彩票中的一張彩票中獎了,我們可以推測獎池裡彩票的總中獎比例為2 / 3。如果我們買三張彩票,都中獎了,那我們可以推測總中獎比例正好是4/5。事實上,如果買n 張彩票共w 張中獎,那麼中獎率就是中獎數加1,除以所購買的數目加2,即w+1/n+2。

這種令人難以置信的簡單的方法估計概率的簡單方法被稱為拉普拉斯定律,它很容易就能適用於任何你需要通過歷史事件來評估概率的情況。如果你做了10 次嘗試,其中有5 次成功,拉普拉斯定律估計你的整體成功概率是6/12 或50%,這符合我們的直覺。如果你只試一次便取得成功,拉普拉斯給的估計是2/3,這比假設你每次都贏更合理,也比普萊斯的觀點更具可操作性(它告訴我們,50% 或更大的成功概率有75% 的元概率)。

拉普拉斯繼續將他的統計方法應用到廣泛的時間問題上,包括評估男孩和女孩的出生率是否真正平均。(他發現,男嬰其實比女嬰的出生率稍高。)他還寫了關於概率的哲學論文,可以說這是給大眾讀者的第一本關於概率的書,也是最好的概率書之一,此書奠定了他的理論基礎並講述了這些理論在法律、科學與日常生活上的應用。

拉普拉斯定律為我們在現實世界中面對小資料時提供了第一種簡單的經驗法則。即使我們只進行了一些或一次觀察,它也都能給予我們實際指導。想知道你的車晚點的概率嗎?你的壘球隊會贏嗎?數一數過去已經發生的數量再加一,然後除以可能的機會數再加2。拉普拉斯定律的精髓就在於無論我們有一個單獨的資料點或數以百萬計的資料,它都同樣適用。小安妮相信太陽明天會升起是有道理的,這句話告訴我們:地球已經連續看到太陽上升約1.6 萬億天,在下一次的“嘗試”中看見太陽不升起來的機會,幾乎沒有可能。

貝葉斯法則與先驗信念

可以想象,所有這些假設都是一致並可以想象的。為什麼我們要偏向其中一種,而這一種並不比其餘的更一致或可以想象?

——大衛•休謨

拉普拉斯也考慮了另一種修飾貝葉斯理論的方法,這將被證明是至關重要的:那就是如何處理那些比其他假設可能性更大的假設。例如,買彩票時,99%的中獎率是有可能的,但我們可以假設中獎率更有可能只有1%。這一假設應該體現在我們的估算過程中。

說得更具體點兒,例如有一個朋友給你看兩個不同的硬幣。一個是正常的“公平”硬幣,正反兩面都具有50–50的概率,另一種是兩面都是頭像的硬幣。他把它們扔到一個袋子裡,然後隨意地拿出一個,他將硬幣旋轉一次:是頭像。你認為你的朋友旋轉的是哪個硬幣?

貝葉斯的反向工作方案使這個問題變得簡單。那個公平硬幣轉到頭像的概率是50%,另一個雙頭硬幣轉到頭像的概率是100%。因此,我們可以自信地斷言,轉到這個硬幣的概率是100%除以50%,或朋友掏出雙頭硬幣的概率是它的兩倍。

現在考慮下面一次的旋轉。這一次,朋友給你看9個公平硬幣和一個雙頭像硬幣,把所有10枚硬幣都裝進袋子,隨機抽取一個,並翻轉它:還是頭像。現在你怎麼想?這次是公平硬幣還是雙頭像硬幣?

拉普拉斯預料到了這一點,而且答案又一次簡單得令人印象深刻。如果和以前一樣,一枚公平硬幣轉到頭像的概率正好是一枚雙頭像硬幣的一半。但現在,首先公平的硬幣被抽到的概率就是雙頭像硬幣的9 倍。事實證明,我們可以把這兩個不同的概率都考慮進去,並把它們相乘:這就是說,你朋友持有一個公平的硬幣的概率是雙頭像硬幣的4.5 倍。

描述這種關係的數學公式,將我們先前持有的觀念和我們眼前的證據結合起來,就形成了後來的貝葉斯法則。有點兒諷刺的是,真正重要的工作卻是由拉普拉斯完成的。它提供了一個非常簡單的解決方案來如何處理現有的信念與觀察到的證據:將它們的概率相乘。

值得注意的是,有一些預先存在的信念,在計算這個公式時至關重要。如果你的朋友只是走近你說:“我從這個袋子裡翻出了一枚硬幣,最後轉出頭像那面。你認為這是一枚公平硬幣的概率有多大?”除非你最開始就對袋子裡是什麼硬幣有一定了解,否則你完全無法回答這個問題。(當你對任何一個概率都無從得知的時候,你便無法將兩個概率相乘),在硬幣翻轉之前,你對“袋子裡”是什麼的感覺,或是說在你看到任何資料之前,每個假設的概率都是真實可能的,這就是所謂的先驗概率,或者簡稱為“先驗”。貝葉斯法則總是需要一些先驗,即使它只是一個猜測。有多少枚雙頭像硬幣?抽到他們的概率有多大?那麼,你的朋友有多大可能是一個騙子呢?

貝葉斯法則依賴於先驗概率,這一點在歷史上的某些時刻被認為是有爭議的、有偏見的,甚至是不科學的。但在現實中,我們的頭腦實際上很少會進入一個完全空白甚至停滯的狀況。

當你對先驗概率有一定的預估時,貝葉斯法則也適用於各種各樣的預測問題,無論它們是大資料型別還是更常見的小資料排序。計算彩票獲獎概率或扔硬幣的概率僅僅是開始。由貝葉斯和拉普拉斯研究出的方法可以在任何時候幫助我們,尤其是當我們遇到不確定性或資料不足的問題和工作時。這正是我們試圖預測未來時所面對的情況。

哥白尼原則

預測本就是一件難事,預測未來尤其如此。

——諺語

當理查德·戈特看到柏林牆時,他問了自己一個非常簡單的問題:我在哪?也就是說,在這一人工建築存在的全過程中,我是否恰好已經到達了呢?簡而言之,他是在從時間角度問一個空間問題,而這一問題正是在400年前深深吸引著天文學家尼古拉·哥白尼的問題:我們在哪?地球在宇宙的什麼位置?與前人不同,哥白尼激進地以為地球不是宇宙的中心,也就是說地球沒有什麼特別的。戈特決定採取同樣的關於時間的分析步驟。

他設想,他到達柏林牆的那一刻並不特別,因為這只是柏林牆整個歷史中的一瞬。如果有任何一個時刻都有同樣的可能性,那麼平均來說,他的到來應該是在一個精確的中間點(因為他有50%概率是在此之前到來,或50%的概率是在此之後)。更普遍的是,除非我們確定我們在某個特定時間現象中出現的特定中間點。a如果我們假設我們到達的中間點有精確的時間,那麼對於它在未來還可以持續多久的最佳猜測就變得很明顯:確切地說就是它已經存在的時間。戈特看到柏林牆時已經建成8 年了,所以他最好的猜測是,它將再存在8 年。(最終,這個數字是20 年。)

這個簡單的推理,被戈特稱為哥白尼原則,它可以得出一個簡單的演算法,能為各類事件做出預測判斷。在沒有任何先入為主的預測時,我們不僅可以用它來獲得對柏林牆終結時間的預測,同時也可以預測任何其他短期和長期現象。哥白尼原則預測道,美利堅合眾國作為一個國家將一直持續到2255 年左右,谷歌將持續到大約2032 年,你與你的朋友一個月前開始的一段關係將可能再持續約一個月(也許你該告訴他不要參加剛收到的婚禮邀請呢)。同樣,它告訴我們要持懷疑態度,例如,《紐約客》雜誌封面是一個人拿著一個6 英寸的智慧手機,上面有大家熟悉的網格正方形應用程式圖示,標題為“2525”。但這是令人懷疑的。據我們所知,智慧手機剛誕生10 年,哥白尼原則告訴我們,它不可能出現在2025 年,更別說5 世紀後了。到2525年,即使還有一個紐約市存在,也會讓人感到吃驚。

更實際地說,如果我們正在考慮一份建築工地的工作,他們的標牌表明“上一次工程事故發生在7 天前”,我們可能會想離開,除非這是一份我們計劃做得特別短的工作。如果一個城市的公交系統承擔不起可以告訴乘客下一班車什麼時候會到來這一非常有用卻很昂貴的實時提醒系統的話,哥白尼原則表明,可能有一個更簡單也更便宜的替代品。那就是簡單地顯示前一輛公交車到達此處的時間距離現在有多久,這可以為判斷下一輛公交車到來的時間提供一個實質性的提示。

但是哥白尼原則就一定正確嗎?當戈特在《自然》雜誌上發表了他的猜想之後,該雜誌收到了很多重要信件。當我們嘗試將規則應用到一些比較熟悉的例子時,很容易理解這是為什麼。如果你遇到一個90歲的男子,哥白尼原則預測他會活到180歲。同時,每個6歲的男孩都會被預測將在12歲時早逝。

要理解為什麼哥白尼原則是合理的,以及為什麼它有時不合理,我們需要回歸到貝葉斯法則。因為,哥白尼原則儘管具有明顯的簡單性,但其的確是貝葉斯法則的一個例項。

貝葉斯與哥白尼

在預測未來時,如柏林牆的壽命這類問題,我們需要評估的假設是所有手頭上掌握的現象的持續時間:它會持續一個星期,一個月,一年,還是十年?正如我們已經看到的,要應用貝葉斯法則,我們首先需要給每個現象的持續時間分配一個先驗概率。事實證明,哥白尼原則正是應用貝葉斯法則並使用了所謂的無資訊先驗的結果。

起初,這似乎是一個矛盾。如果貝葉斯法則總是要求我們明確事先的預測和想法,我們又怎麼能告訴它,我們沒有任何預測結果呢?在彩票抽獎的情況下,為無知進行辯護的一個方法就是被稱為“統一先驗”的方法,這就是認為每個中獎彩票的比例都是相同的。在柏林牆這一例子中,無資訊先驗意味著:我們對將要預測的時間範疇一無所知:牆可能會在接下來的5 分鐘或5 年後倒塌。

除了這些無資訊先驗,如我們所見,我們供應給貝葉斯法則的唯一一部分資料,事實上就是我們到達柏林牆的時候,它已經存在了8 年。任何預測它小於8 年壽命的假設都可以被排除,因為這些假設不能解釋我們這裡的情況。(同樣的,一枚雙頭像硬幣就可以排除字那面的可能性。)任何超過8 年的預測都是有可能的,但是如果柏林牆要存在100 萬年,那它將是一個很大的巧合,表明我們幾乎是接近它存在的最初起點。因此,即使特別長的壽命不能排除,但它也不大可能出現。

當貝葉斯法則與所有這些概率結合——更有可能的短時限就拉低了平均預測,可能性更小但也有一定可能性的長時限又將其拉高,哥白尼原則便出現了:如果我們要預測某個事物還將持續存在多久(在對它沒有其他任何瞭解時),我們可以做出的最好的猜測就是,它將再持續已經存在的時間。

事實上,戈特並不是第一個提出類似哥白尼原則的人。20 世紀20 年代中期,貝葉斯統計學家哈羅德·傑佛利曾考慮僅僅通過一輛城市有軌電車的序號來確定一個城市有軌電車的數量,並得出了相同的答案:該數字的雙倍。一個類似的問題出現得更早,在第二次世界大戰期間,同盟國試圖估計由德國製造的坦克數量。他們通過所捕獲的坦克的序列號,在純數學估計的基礎上進行預測,得出的結果是德國每月生產246 輛坦克,而通過廣泛的(高度危險的)空中偵察所獲得的估計表明,這個數字更接近於1 400。而戰後,德國記錄顯示的真實數字是:245。

在認識到哥白尼原則是無資訊先驗基礎上的貝葉斯法則之後,就可以回答很多關於其有效性的問題。哥白尼原則在我們什麼都不知道的情況下似乎是合理的、準確的,如在1969年看到的柏林牆,我們不確定什麼時間範疇是合適的。同時,在我們對某一物件的確有所瞭解時,就會感覺這是完全錯誤的。預測一個90歲的人能活到180歲是不合理的,這恰恰是因為我們關於人類壽命已經瞭解了很多——在這種情況下,我們就可以預測得更好。我們給貝葉斯法則帶來的先驗資訊越豐富,我們便能從中得到越有用的預測。

真實世界的先驗……

從廣義上講,世界上有兩種型別的事物:傾向於(或圍繞)某種“自然”價值的事物,以及與之相反的事物。

人類的生命跨度顯然是屬於前一類。它大體遵循所謂的“正態”的分佈,也被稱為“高斯”分佈(這是以德國數學家卡爾·弗里德里希·高斯命名的),同時因其分佈的形狀特徵也被形象地稱為“鐘形曲線”。這種形狀能很好地表現人類的壽命,例如,美國男性的平均壽命集中在76歲左右,曲線頂端的兩邊呈現急劇下降的趨勢。正態分佈往往都有一個適當的比例:一位數的壽命往往會被認為是悲慘的,三位數的壽命是非凡的。自然世界的許多其他事情也都呈現正態分佈的趨勢,從人的身高、體重、血壓,到城市正午的溫度,或是果園的果實直徑。

世界上有許多事物看起來似乎並不呈現正態分佈,但這只是因為你沒有長遠地看。例如,美國一個城鎮的平均人口是8 226 人。但是如果你要按人口統計該城鎮數量圖表,你就不會看到像鐘形曲線那樣長遠才能實現的東西。還有很多小鎮的人口遠不足8 226 人,同時,某些重要城鎮的人口會比平均人口要大得多。這種模式就是所謂的“冪律分佈”,也被稱為“無標度分佈”,因為他們可以在多個尺度的範圍表達數量:一個城市能有幾十,數百,數千,數萬,數十萬,甚至數百萬名的居民,所以我們不能以一個單一的數值來定義一個“正常”的城鎮有多大。

冪律分佈可以描述在日常生活中一系列與城鎮人口分佈類似的現象:大多數都低於平均值,少數是超過的。電影的票房收入,其範圍可以是從4~10 位的數字,這是另一個例子。有些電影根本掙不了那麼多錢,但偶爾也有像《泰坦尼克號》這樣的高票房電影。

事實上,一般來說,貨幣是一個充滿權力法則的領域。冪律分佈可以描述人民的財富和人民的收入。例如,美國的人均收入是55 68美元,但由於收入大致是呈冪律分佈的,這樣我們便會得知,平均值以下的人會比平均值以上的要多,而平均值以上的人的收入可能高得幾乎偏離了圖表。事實也的確如此:美國2/3 的人口收入低於平均收入,但前1% 的人的收入幾乎是平均水平的10 倍。這1% 中的前1%的人的收入又是其餘99% 的10 倍。

人們常常感嘆“富人會變得更富有”,實際上“偏好依附”的過程是產生冪律分佈的最可靠的方法之一。我們使用最多的網站往往就是最有可能獲得匯入連結的網站,擁有最多人追隨的網路紅人就是最有可能獲得新支持者的人,最有聲望的公司就是最有可能吸引新客戶的公司,最大的城市就是最有可能吸引新居民的城市。在這每一種情況下,冪律分佈都會得出這個結果。

貝葉斯法則告訴我們,在基於有限的證據進行預測時,很少有事情是和好的先驗一樣重要的,也就是說,我們期望證據可以從分佈結果中得出。因此,良好的預測最開始要有良好的直覺,要能感覺到我們何時在處理一個正態分佈,何時在處理一個冪律分佈。事實證明,貝葉斯法則為我們處理這些情況各提供了一個簡單但顯著不同的預測經驗法則。

他們的預測規則

你是指“這會一直”朝好的方向發展嗎?

——本•勒納

為了驗證哥白尼原則,我們看到,當給貝葉斯法則一個無資訊先驗時,它會一直預測事物的總壽命為目前壽命的兩倍。事實上,無資訊先驗的可能性有很寬泛的尺度,柏林牆可能繼續存在幾個月或幾千年,這個尺度就是冪律分佈。對於任何冪律分佈,貝葉斯法則表明,一個合適的預測策略就是相乘法則:將迄今觀察到的數量乘以一些常數。對於無資訊先驗,這個常數一般是2,哥白尼預測的方法由此得來;在其他冪律的情況下,所乘的數將取決於你工作的精確分佈。例如,對於電影票房,它正好是1.4。所以,如果你聽到一部電影到目前為止已經賺了600萬美元,那麼你可以猜測,它總共將賺840萬美元。如果它現在賺了9 000萬美元,那麼可以預計的最高票房將是1.26億美元。

冪律分佈不能表明它們所描述的現象的自然範疇,這就直接導致了相乘法則的出現。因此,唯一能給我們的預測提供一些關於範疇的想法的就是我們所擁有的單一資料點,比如柏林牆已經存在8 年了。單一資料點的值越大,我們可能要處理的範疇也就越大,反之亦然。當然這種情況也是有可能的:這部電影的票房現在是600 萬美元,而實際上它只是在第一個小時票房驚人,它更可能是一個只有幾百萬美元票房的電影。

另一方面,當我們將正態分佈作為貝葉斯法則的先驗時,我們會得到一個非常不同的指導。我們會得到一個“平均”規則,而不是相乘法則:使用分佈的“自然”平均數作為指導。例如,如果有人還沒達到平均壽命,那麼就直接將其年齡預測為平均值。隨著他們的年齡增長並超過平均水平,就預測他們還會再活幾年。遵循這一規律為90歲和6 歲的兩個人給出的合理預測年齡分別為94 歲和77 歲。(6 歲的孩子的預測壽命比76 歲的平均壽命略高是因為他已經順利度過了嬰兒期:這樣我們就知道他不處於分佈的尾端。)

電影的時長就像人類的壽命,也遵循正態分佈:大多數電影都在100 分鐘左右,某些特殊的電影時長處於分佈的兩端。但並不是所有的人類活動都是這樣的。詩人迪安·楊曾經說過,每當他聽一首帶編號的詩時,如果讀者開始念第四節,他的心就會一沉:如果有三個以上的部分,楊就會重新開始,靜坐細聽。事實證明,楊的沮喪完美體現了貝葉斯法則。通過對詩的分析可發現,它不同於電影的時長,詩歌更接近於冪率分佈而不是正態分佈:因為大部分詩是短的,除了某些史詩。所以說到詩歌,首先你要確保有一個舒適的座位。正態分佈的東西似乎太長了,最後必然會很快結束。但冪律分佈的東西存在的時間越長,你可以預測它繼續下去的時間就越長。

在這兩個極端之間,生活中實際上還有第三種事物:那些不具有更大或更小可能性結束的事物,只因為他們已經持續存在了一段時間。有時候事情是簡單的、不變的。丹麥數學家瓦格納·厄蘭研究了這種現象,他將獨立事件之間的間隔形式化並推匯出帶有他名字的函式:厄蘭分佈。這條曲線的形狀不同於正態分佈或冪律分佈:它有一個類似翅膀的形狀,峰值上升較緩,尾部下降的趨勢比冪律分佈得快,但比正態分佈得緩。在20世紀初,他為哥本哈根電信公司工作,用這種分佈曲線來模擬在電話網路中連續通話的時間。自那以後,厄蘭分佈也被用於城市規劃以及汽車和行人交通的建設模型中,並被網路工程師在設計網際網路的基礎設施時使用。自然世界中存在多個維度,其中發生的事件彼此也是完全獨立的,它們之間的間隔從而就落在了厄蘭曲線上。放射性衰變就是一個例子,這意味著厄蘭分佈完美地預測了蓋革計數器的下一次提示聲何時會發出。其在描述例如政客在眾議院的任職時間這類的人類活動時也表現不俗。

厄蘭分佈給出了第三種預測法則——相加法則:總是預測事物只會再持續一個常量。我們經常聽到的“只需5分鐘!……(5分鐘後)再給我5分鐘!”這往往表現了人們的某種特徵,比如說,當一個人準備離開房子或辦公室,或完成一些任務的最後時間,這似乎預示著在對現實做出估計時可能出現的一些慢性故障。不過,在一個人不符合厄蘭分佈的情況下,無論如何,這種話都可能是正確的。

例如,如果一個賭場紙牌愛好者告訴他不耐煩的配偶,他會在贏得一次21 點後就停手(贏的概率約為20∶1),他會很高興地預測:“我再買20 次就會贏了!”20 次後她又回來,問他要讓她再等多久,那麼,他的答案將是不變的:“我再買大約20 次就會贏!”這聽起來像是我們這位不懈的賭鬼已經進入短期記憶喪失模式了,但事實上,他的預測是完全正確的。事實上,無論他們過去或目前的狀態是怎樣的,分佈結果會產生相同的預測,這一結果被統計學家稱為“無記憶性”。

這三個非常不同的最佳預測模式——相乘法則、平均法則和相加法則都是通過將貝葉斯法則應用到冪律、正態和厄蘭分佈上得出結果的。因為這些預測的出現,這三種分佈也給我們提供了不同的指導,讓我們知道對某些事件應該有多驚訝。

在冪律分佈中,某個事物已經存在的時間越長,我們可以預測它繼續存在的時間也就越長。因此,冪律事件讓我們等待的時間越長,就會讓我們更加驚奇,尤其在它發生前的一刻。一個國家、一個公司或一個機構,年復一年地變得更加強大,所以當它崩潰時總是令人震驚。

在正態分佈中,如果事件提前發生就會令人驚訝,因為我們期望它們達到平均水平,但當它們推遲發生時不會如此。的確,到了這一點,它們似乎推遲發生了,所以我們等待的時間越長,我們就會越期待。

在厄蘭分佈中,通過定義的事件無論何時發生都不會給我們帶來更多或更少的意外。任何事情的狀態都有可能結束,不管它已經持續了多久。毫無疑問,政治家總是會對他們下一次的選舉進行準備。

賭博的特點類似於穩態預期。例如,如果你所等待的輪盤賭注的勝利是呈正態分佈的,那麼平均法則將適用於此:在一個壞運氣後,它會告訴你,你的號碼應該會隨時中獎,在輸了更多次之後會更快出現。(在這種情況下,它的影響會持續到下一次勝利,然後停止。)相反,如果你等待的勝利呈現冪律分佈,那麼相乘法則會告訴你勝出盤會一次接著一次出現。(在這種情況下,如果你這局勝出了就應該繼續下注,如果長時間沒有勝出就該停手。)然而,當面對無記憶分佈時,你就進退兩難了。相加法則告訴你,現在贏的機會和一小時前一樣,一小時後也如此。一切都沒有什麼變化。你沒有因為長時間的等待而得到大獎,也沒有一個轉折點會告訴你何時應該停止你的損失。在電影《賭棍》中,肯尼·羅傑斯提出了一個著名的建議,他說,你必須“知道什麼時候走開,或知道什麼時候繼續”,但對於無記憶分佈而言,沒有一個絕對正確的退出時間。這可能就是為什麼這些遊戲會讓人上癮的部分原因。

知道你所面對的是什麼樣的分佈十分重要。當哈佛大學的生物學家和作家斯蒂芬·傑伊·古爾德發現自己得了癌症後,他的第一個念頭就是去閱讀相關的醫學文獻。然後他發現為什麼他的醫生會勸阻他這樣做:患他這種癌症的病人有一半在確診8 個月內死亡。

但是這一個統計數字(8 個月)並沒有告訴他任何關於倖存者的分佈。如果這是一個正態分佈,那麼平均法則將給出一個相當明確的預測,告訴他還可以活多久:約8 個月。但是,如果它是冪律分佈,尾部延伸到右側,那麼情況就會大不相同:相乘法則會告訴他,他活得越久,就會有越多的證據證明他能活得更長。進一步閱讀後,古爾德發現:“分佈確實是強烈右偏,長(但比較小的)尾巴延長數年以上,都超過8個月的中位數。我看不出我為什麼不應該待在那條小尾巴上,我長長地鬆了一口氣。”古爾德在確診後又活了20年。

小資料與思維

三個預測法則——相乘、平均和相加適用於日常生活的各個方面。在這種情況下,人們一般都非常善於使用正確的預測法則。湯姆在讀研究生時,和麻省理工學院的喬希·特南鮑姆一起進行了一個實驗,實驗要求人們對生活中的各種常量進行預測,如人類的壽命、電影的票房以及眾議院議員任職時間等,每個問題只提供一條資訊:現年齡、現票房或現任職時間。然後,他們比較了人們所預測的結果和應用貝葉斯法則的結果。

事實證明,人們所做的預測與貝葉斯法則所得出的預測非常接近。直覺上,人們做出不同型別的預測也是遵循在現實世界中的不同分佈——冪律、正態和厄蘭分佈。換句話說,雖然你可能不知道或不清楚某種情況是需要用相乘法則、平均法則,還是相加法則,但你每天做的預測往往隱含在這些分佈中,它反映了日常生活中出現的不同情況,以及不同的行為方式。

根據我們對貝葉斯法則的瞭解,這一出色的人類表現顯示了可以幫助我們進行預測的重要因素。小資料是大資料的變相。往往,我們能從少量的或一個單一的觀察結果得出正確預測結果的原因是,我們在這方面的先驗如此豐富。不管我們是否知道,我們似乎已經在頭腦中儲存下驚人準確的先驗,例如關於電影的票房和時長、詩的長度,以及任職時間,更不用說人類的壽命。我們不需要特意收集這些先驗,因為我們從這個世界中不停地吸收著它們。

事實上,就整體而言,人們的直覺似乎接近於貝葉斯法則的預測,也可以將各種先驗分佈逆向轉換,即使這很難得到權威的真實資料。例如,對客戶服務保持不變是人類經驗中一個相當常見的一面,但沒有公開的資料集表明好萊塢票房收入的保持時間。但是,如果人們是通過他們的經驗進行預測,我們就可以使用貝葉斯法則,通過挖掘人們的期望對世界進行間接探測。當湯姆和喬希要求人們從一個單一的資料點來預測保持時間時,結果表明受試者使用的是相乘法則:人們預計的總等待時間是他們等待時間的一倍多。這與將冪律分佈作為先驗相一致,其中廣泛的尺度也是可能的。只希望你不要因為等待時間而終結在“泰坦尼克號”上。在過去的10 年中,這樣的方法使認知科學家能夠從視覺、語言等各個領域識別人類的先驗分佈。

然而這裡有一個關鍵的警示。在我們沒有良好先驗的情況下,我們就無法很好地預測。例如,在湯姆和喬希的研究中有一個主題,人們的預測在這個主題上全都系統地偏離了貝葉斯法則,那就是預言埃及法老統治的長度。(恰巧,法老王的統治遵循厄蘭分佈。)在這個問題中,人們只是沒有足夠的日常接觸以產生一個直觀的感覺範圍的價值觀,所以他們的預測肯定也十分困難。準確的預測需要充足的先驗知識。

這具有許多重要的含義。我們的判斷背叛了我們的預期,我們的期望又背叛了我們的經驗。我們對未來的計劃揭示了我們生活的世界以及我們自己經歷過的方方面面。

我們的預測體現出我們自己

20世紀70年代初期,沃爾特·米歇爾在其著名的“棉花糖實驗”中曾試圖分析延遲滿足的能力是如何隨著年齡的增長而發展的。在斯坦福大學的一所幼兒園裡,研究者對一組3~5歲的孩子進行了意志力測試。每一個孩子面前都會出現一種美食,如棉花糖,並被告知參與實驗的成人馬上要離開一會兒。如果他們想吃那些糖,可以馬上吃。但是,如果他們忍著不吃等到實驗者回來,便會得到多一顆糖。

有些孩子由於抵制不了美食的誘惑,就立即吃了。有些孩子堅持了整整15分鐘,直到實驗者返回,並得到了兩顆糖。但也許最有趣的就是那些等待了一會兒但後來還是沒忍住吃掉糖的孩子。

在這種情況下,這些孩子在努力抗爭,抵制誘惑,但最終還是敗下陣來,失去了額外的棉花糖,這被解釋為體現出一種非理性。如果你要屈服,為什麼不立即屈服並免受折磨?但這完全取決於孩子認為自己處於什麼樣的狀況。正如賓夕法尼亞大學的喬·麥奎爾和喬·凱布林所指出的,如果需要大人回來的時間呈冪律分佈(逾期缺席意味著比預想的等待時間更長),那麼在某個時候減少損失就是完美決定。

換句話說,抵制誘惑的能力至少部分取決於預期而不是意志力。如果你預測大人會在很短的時間後回來(有點類似正態分佈),那麼你就應該能夠堅持下去。平均法則表明,經過痛苦的等待,要做的事情還是在那裡:實驗者應該隨時會返回。但是,如果你不知道消失的時間會有多長(與冪律分佈一致),那麼這就是一場艱苦的戰鬥。相乘法則表明,現在漫長的等待還只是未來漫長等待的開頭。

這次棉花糖實驗後的幾十年,沃爾特·米歇爾和他的同事們又重新觀察當時的參與者在後來的生活中表現如何。令人驚訝的是,當時等到兩顆糖的孩子長大後比其他人更成功,甚至他們的學術能力評估測試成績也更高。如果棉花糖實驗測試的是意志力,那麼這就是一個強有力的證據,證明了學習自我控制可以對一個人的生活有多大的影響。但是,如果測試是關於意願,而不是預期,那麼這就體現了一個完全不同的,也許更悽美的故事。

羅切斯特大學的一組研究者最近研究了先驗經驗在棉花糖實驗中是如何影響人們的行為的。在提到棉花糖之前,實驗中的孩子們先進行了一個藝術專案。實驗者給了他們一些平常的藝術品,並承諾很快會有更好的東西給他們。但是,他們並不知道,孩子們被分為兩組。其中一組的實驗者很誠信,返回時履行承諾,帶來了更好的藝術品。而另一組的實驗者並未信守承諾,回來時只給孩子們一個道歉,什麼都沒帶回來。

藝術專案完成後,孩子們接下來就去參加標準棉花糖實驗。在這個實驗中,之前認為實驗者是不可靠的孩子更可能在大人回來之前就吃掉棉花糖,失去獲得第二顆糖的機會。

在棉花糖實驗中失敗,並在以後的生活也沒那麼成功的人可能跟缺乏毅力沒什麼關係。可能是因為當時那些孩子認為大人是不可靠的:他們說的話不能相信,他們離開的時間長度也是隨意的。學習自我控制是一個重要的問題,但在一個成年人始終能信賴的環境中成長也是同樣重要的。

機械複製時代的先驗

這就好像有人要買好幾份同樣的晨報來確保報紙上說的是真的。

——路德維希•維特根斯坦

他仔細看他所讀的內容,因為那是他要寫的東西。他很認真學習他所學的內容,因為那是他將會懂得的東西。

——安妮•迪拉德

正如貝葉斯法則告訴我們的,做出準確預測的最好方法就是準確地瞭解你所預測的事情。這就是為什麼我們能很好地預測人類的壽命,但是當被問及預測法老的統治時間時卻不盡如人意。

作為貝葉斯法則的一種好方法,它以正確的比例表現世界——具有充分合理的先驗,並適當校準。總的來說,對於人類和其他動物來說,這種情況是自然發生的。通常,當有什麼東西使我們感到驚奇時,它應該讓我們吃驚,而當它不應該讓我們吃驚的時候,它就不會。即使我們所積累的偏見不是客觀正確的,這些偏見通常還是會合理地反映我們所生活的世界的特定部分。例如,生活在沙漠氣候中的人可能高估了世界上的沙量,而生活在極地的人可能高估了雪的總量。但他們都能很好地適應自己的生態環境。

然而,當一個物種學會使用語言時,一切就開始瓦解。我們所談論的並不是我們所經歷的事情——我們主要談論的是有趣的事情,而這些事往往也是不尋常的。根據其定義,事件總是或多或少地在其適當的頻率發生,但語言並不完全是這樣。任何經歷過蛇咬傷或雷擊的人,都會在他們餘下的生命中複述那些奇異的故事。這些故事是如此不尋常,因此會被人不斷談起。

之後,在與他人溝通和保持準確的先驗世界之間有一種奇怪的壓力。當人們談論感興趣的事或說一些他們認為聽眾也會感興趣的故事時,就偏離了我們的經驗統計。這使得經驗統計很難保持適當的先驗分佈。而隨著印刷術、新聞和社交媒體的發展,這種挑戰會不斷增加,並使我們人類這個物種能夠機械地傳播語言。

想想你見過多少次失事的飛機或汽車。你完全可能看過以下某個場景——失事的汽車可能就在你旁邊的道路上,而飛機墜毀可能發生在另一個大陸,這些訊息都是通過網際網路或電視傳輸給你的。例如,在美國,從2000 年起到現在,在商業飛機上失去生命的總人數不足以填滿卡耐基音樂廳,甚至一半都沒有。相比之下,美國在同一時間段死於車禍的人數就超過了懷俄明州的全部人口。

簡單地說,媒體對事件的報道並不與其在世界上發生的頻率相符。社會學家巴里·格拉斯納指出,在20 世紀90 年代美國的謀殺率下降了20%,然而在那段時間裡,美國新聞中所報道的槍支暴力事件卻增加了600%。

如果你想成為一個具有準確直覺的貝葉斯主義者——如果你想自然地做出準確的預測,而不必考慮什麼樣的預測規則是適當的,你就需要保護你的先驗。相反,這可能意味著要關閉訊息來源渠道。

∑編輯 | Gemini

640?wx_fmt=gif

粉絲福利

送書!

640?wx_fmt=jpeg

想獲得此書,

文章底部留言,

留言點贊前四名的粉絲(24小時計),

免費獲得此書!

640?wx_fmt=gif

相關推薦

法則預測未來

本文節選自《演算法之美:指導工作與生活的演算法》中信出版集團,2018年05月出版人類獲得的所有

機器學習之路 python 樸素分類器 預測新聞類別

groups group news ckey put epo test electron final 使用python3 學習樸素貝葉斯分類api 設計到字符串提取特征向量 歡迎來到我的git下載源代碼: https://github.com/linyi0604/kag

思維統計建模的Python學習法》高清中文版PDF+高清英文版PDF+原始碼

下載:https://pan.baidu.com/s/1axiPTi3PkYcZhdkQAQidEg 更多資料分享:http://blog.51cto.com/3215120 《貝葉斯思維:統計建模的Python學習法》高清中文版PDF+高清英文版PDF+原始碼 高清中文版PDF,帶目錄和書籤,文字能夠

分享《思維統計建模的Python學習法》高清中文版PDF+高清英文版PDF+源代碼

復制 ges 源代碼 term alt log vpd ces 英文 下載:https://pan.baidu.com/s/1axiPTi3PkYcZhdkQAQidEg 更多資料分享:http://blog.51cto.com/3215120 《貝葉斯思維:統計建模的Py

分析拋硬幣的概率真的是1/2嗎

前言 前面兩文介紹了貝葉斯學派的思想和先驗分佈、後驗分佈的相關知識,古典頻率學派認為拋硬幣的概率是常數,本文從貝葉斯學派的角度看待拋硬幣的概率問題。本文詳細介紹了 β分佈,重述貝葉斯思想,對於拋硬幣的概率問題作各種情況的分析,最後總結本文。 目錄 1、為什麼選擇β分佈作為先驗分佈

分享《思維統計建模的Python學習法》+PDF+源碼+Allen B.Downey+許楊毅

ext img 中文版 下載 ESS size alt sha 分享圖片 下載:https://pan.baidu.com/s/130Wf-CymOIW4ELlh9ihVlg 更多資料分享:http://blog.51cto.com/14087171 《貝葉斯思維:統計建模

樸素應用垃圾郵件分類

  import nltk nltk.download() from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer #預處理 def preprocessing(text): tokens

樸素應用垃圾郵件分類(更新)

#讀取資料集 import csv file_path=r'jiangnan.txt' sms=open(file_path,'r',encoding='utf-8') sms_data=[] sms_label=[] text=csv.reader(sms,delimiter='\t') text

第十二次作業——樸素應用垃圾郵件分類

text = "Everybody knows waste paper and used coke cans are discarded everywhere. You might have seen plastic bags flying in the sky and getting caught i

樸素分類和預測演算法的原理及實現

決策樹和樸素貝葉斯是最常用的兩種分類演算法,本篇文章介紹樸素貝葉斯演算法。貝葉斯定理是以英國數學家貝葉斯命名,用來解決兩個條件概率之間的關係問題。簡單的說就是在已知P(A|B)時如何獲得P(B|A)的概率。樸素貝葉斯(Naive Bayes)假設特徵P(A)在特定結果P(

法則,先驗概率,後驗概率,最大後驗概率

1.貝葉斯法則機器學習的任務:在給定訓練資料D時,確定假設空間H中的最佳假設。最佳假設:一種方法是把它定義為在給定資料D以及H中不同假設的先驗概率的有關知識下的最可能假設。貝葉斯理論提供了一種計算假設概率的方法,基於假設的先驗概率、給定假設下觀察到不同資料的概率以及觀察到的

面向過程給出《思維統計建模的Python學習法》——二維綵球問題學習程式碼

背景 給出讀《艾伯特貝葉斯思維:統計建模的Python學習法.pdf》的時候,寫的程式碼,以面向過程的方式給出。 本章彩彈問題,求似然度的時候,假設已知隱藏點時,射手等概率從各個角度射擊。 程式碼 匯入

的概率推到,樸素分類器及Python實現

在瞭解貝葉演算法前:要有一定的概率與數理統計基礎以及注意事項 條件概率 首先,理解這兩個公式的前提是理解條件概率,因此先複習條件概率。 P(A|B)=P(AB)P(B)P(A|B)=P(AB)P(B) 那麼由條件概率出發,看一下變形出來的乘法公式:

機器學習分類器

貝葉斯 逆向 檢測 .net 極大似然估計 href ref .com blank 參考文獻 從貝葉斯定理說開去 關鍵詞:逆向概率;先驗概率;後驗概率 我所理解的貝葉斯定理--知乎專欄 關鍵詞:醫院病癥檢測中的真假陽性 似然與極大似然估計--知乎專欄 關鍵詞:似然與概率的區

vs頻率派武功到底哪家強?| 說人話的統計學·協和八(轉)

定義 這一 tps cbc 出發 上一條 習慣 做出 而已 回我們初次見識了統計學理論中的“獨孤九劍”——貝葉斯統計學(戳這裏回顧),它的起源便是大名鼎鼎的貝葉斯定理。 整個貝葉斯統計學的精髓可以用貝葉斯定理這一條式子來概括: 我們做數據分析,絕大多數情況下希望得到的是關於

機器學習分類器(二)——高樸素分類器代碼實現

mod ces 數據 大於等於 即使 平均值 方差 很多 mode 一 高斯樸素貝葉斯分類器代碼實現 網上搜索不調用sklearn實現的樸素貝葉斯分類器基本很少,即使有也是結合文本分類的多項式或伯努利類型,因此自己寫了一遍能直接封裝的高斯類型NB分類器,當然與真正的源碼相

統計學習四1.樸素

isp 基本 基礎 ase 問題 math ots 特征 正數 全文引用自《統計學習方法》(李航) 樸素貝葉斯(naive Bayes)法 是以貝葉斯定理為基礎的一中分類方法,它的前提條件是假設特征條件相互獨立。對於給定的訓練集,它首先基於特征條件假設的前提條件,去學習

網(2)Netica從數據中學習CPT

指向 搭建 上一個 劃分 認知 圖劃分 4.0 ont 再次 1. 離散節點 在官方Tutorial中是有詳細的案例的,就是B篇3.3節,你可以動手把天氣預報這個實現一下: http://www.norsys.com/tutorials/netica/secB/tut_B3

分類樸素分類方法

       樸素貝葉斯分類方法的特點是基於概率方法實現分類,這在諸多的分類方法中比較少見。貝葉斯方法都有所耳聞,之所以稱為“樸素”貝葉斯方法,是因為在分類時,假定了“各變數間相互獨立”的條件,這個條件算是比較強的了,大大簡化了分類時的計算,但同時也丟失了一些

【機器學習--樸素與SVM進行病情分類預測

     貝葉斯定理由英國數學家托馬斯.貝葉斯(Thomas Baves)在1763提出,因此得名貝葉斯定理。貝葉斯定理也稱貝葉斯推理,是關於隨機事件的條件概率的一則定理。 對於兩個事件A和B,事件A發生則B也發生的概率記為P(B|A),事件B發生則A也發生的概率記為P