1. 程式人生 > 其它 >資料分析系列之統計學

資料分析系列之統計學

玩轉會員資料分析系列將從結合實際工作的案例來介紹在日常工作中的哪些資料分析方法、概念應該在什麼時候使用,通過直白的語言來帶領大家走入資料分析領域。

 

玩轉會員資料分析系列文章主要針對資料分析給大家普及一些基礎知識以及在工作中經常會用到的資料分析方法和概念,幫助大家一起成長。

因為我們知道,在整個產品經理的職業生涯中,如果你不想永遠是一個只畫畫原型,寫寫文件的職場菜鳥,就一定需要掌握資料分析的概念和方法,你需要知道在管理產品的不同階段需要使用哪些資料分析的方法來論證你的判斷是否正確?使用者是否能夠接受?能夠為企業帶來哪些收益?

玩轉會員資料分析系列將從結合實際工作的案例來介紹在日常工作中的哪些資料分析方法、概念應該在什麼時候使用,通過直白的語言來帶領大家走入資料分析領域。

第一章:統計學

什麼是統計學?

統計學是通過搜尋、整理、分析、描述資料等手段,以達到推斷所測物件的本質,甚至預測物件未來的一門綜合性科學。統計學用到了大量的數學及其它學科的專業知識,其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域。

瞭解統計學的意義

作為大資料時代炙手可熱的學問,統計學可以解決很多實際問題。只有瞭解了統計學你才能知道在大資料意義下生存的遊戲法則。一般意義上的統計學包括了:概率學、數理統計學兩個部分,它們都是以概率論為基礎。

統計學核心定律及概念

通過分析資料推斷事物的本質,預測它未來的發展,分析資料的第一步就是找出那些看似偶然的發生的事件,背後隱藏著哪些必然性的統計規律。

核心內容

  • 第1節:大數定律
  • 第2節:中心極限定理
  • 第3節:隨機抽樣
  • 第4節:迴歸分析
  • 第5節:常犯的概率學錯誤

第一節:大數定律(整個概率學的基礎)

什麼是大數定律?

比如說,我們在學生時代經常會有一些單元測驗的考試,對你來說每次考試的分數肯定是會上下浮動的,可能有幾次的分數比較高,有幾次的分數比較低,但經過了很多次測驗以後這些分數應該能夠反映你的真實能力了,這就是大數定律定律的主要內涵。

用數學術語來表達就是:當實驗次數足夠多的時候,實驗結果的平均值會無限接近一個數值,這個數值一般叫做“期望值”。它的意義在於我們可以通過研究概率來看清風險,做出決定,尤其是在理財和投資的時候體現的特別明顯。

比如常常有人幻想一夜暴富,最有可能的方法就是買彩票或則進賭場。博彩行業就是依靠概率理論來發財的,讓大家覺得自己會是那個幸運兒。如果按照每期獎金的數額除以彩票的發行量,每張彩票的實際價值都不到1分錢。

但是,人們都熱衷於用2元錢來交換1分錢。就算是某期彩票爆出的大獎掏空了獎池,那從長遠來看的話,發行彩票業是穩賺不賠的。

因為什麼呢?根據大數定律,對於長期發行銷量穩定的彩票,獎金總額的期望值是恆定的,發行機構只要保證發行彩票的銷售額大於彩金期望值,就肯定能夠賺錢。

賭場也是一樣的,只要能夠吸引到足夠數量的賭客,不管幸運兒贏走多少錢,賭場永遠是最後的贏家。所以,一夜暴富的事情發生在我們身上的概率微乎其微,沉溺其中的結果就是讓賭場老闆和彩票發行機構大賺了一筆。

在我們生活中也有很多相似的案例,例如積分抽獎,我們每天都使用餓了麼來訂外賣,每筆訂單完成評價後都會獎勵一定的積分,這些積分可以在餓了麼商城兌換商品和抽獎。

但是我們發現積分可直接兌換的商品價值都是很低的,要麼就是需要加錢購買的,總體來看價效比不高。而參與抽獎的商品可能都是價值較高的數碼產品,我們當然願意使用積分去抽取這些價值較高的獎品,雖然我們也知道中獎的機率很低。當然積分抽獎的最終目的在於快速的消耗使用者賬戶中沉澱的積分而不是賺錢。

1、通過研究概率,明智的選擇理財方式

對於一些期望值比較高的投資,我們也要用到大數定律。比如一個投資門檻是100萬的專案,成功率只有30%,但是預期回報達到了500%,這麼誘人該不該投呢?這個時候如果你把注意力都放在了高回報率上就比較危險。我們要注意大數定律成立的前提在於實驗次數足夠多。投資100萬可不是買2元錢的彩票。

如果你是個工薪階層,你用來投資的100萬是你的全部家當,那你顯然沒有多次投資的資本。這個時候如果你孤注一擲,那麼你會有70%概率會血本無歸。

反過來,如果你是投資機構或則富二代,那這樣的專案肯定是來的越多越好。因為你投資的幾百個專案裡面,肯定有一些能夠成功。平均來看的話一定能夠像開賭場一樣賺到大錢,所以面對理財投資中的高期望,我們首先應該考慮的因素就是:風險傾向。根據大數定律你的風險承受能力越強,就意味著允許實驗的次數越多,也就越有可能賺到期望的投資回報。這樣大家就很容易理解兩個基本概念

  • 風險投資機構每年投資那麼多專案的意義在哪裡;
  • 為什麼有錢的人賺錢比窮人更容易。

2、幫助我們理性面對風險

生活中最常見的,依靠大數定律來賺錢的其實是保險行業。比如你在網上購買某個電子產品的時候,網站經常會向我們推銷延長保修的服務。比如一臺2000元的洗衣機,多花100塊錢可以延保一年,如果你掌握了大數定律就很容易想到。廠家對這臺洗衣機維修服務的預期成本肯定少於100元,否則廠家就要賠錢了。但是有些時候,這種錢還必須得花。大家都知道,保險公司利潤很高,假設一種人身意外險的賠償額度是100萬,發生意外的概率是百萬分之一,那麼預期損失就是1元錢。如果你花10元錢來買,保險公司就能賺到10倍的利潤,基本和開賭場沒什麼區別。但是你要知道,買這類保險的意義並不是為了省錢,而是當你遭受一些難以承受的巨大損失時,幫你渡過難關。因為人身意外的損失是不能和2000元的洗衣機來比較的。這個時候保險更多的是一種規避風險的理性工具。

第二節:中心極限定理

什麼是中心極限定理?

中心極限定理(central limit theorem)是概率論中討論隨機變數序列部分和分佈漸近於正態分佈的一類定理。這組定理是數理統計學和誤差分析的理論基礎,指出了大量隨機變數累積分佈函式逐點收斂到正態分佈的積累分佈函式的條件。

光從百科的字面上我們可能很難理解這個定理到底是個什麼東東?其實,只要我們把它轉化成生活中的常常發生的事情就非常好理解了。比如我們去農場的一棵樹上摘蘋果,想知道這棵樹上的蘋果甜不甜?沒必要把整棵樹上所有的蘋果都嘗一遍,在一棵樹上任意一個蘋果的甜度絕不會相差太大,只要從中選取幾個品嚐就能夠知道這批水果到底甜不甜。

那中心極限定理的含義就是:任意一個群體樣本的平均值都會圍繞在這個群體的整體平均值周圍,我們對一個基數龐大的群體做統計調查的時候,只要對其中的一部分樣本進行研究,得出的結論就能夠反映出整個群體的特點。而且抽樣的數量越大準確率越高。因為這個定理的存在我們開展調查統計就變得簡單方便了。

通過上面的例子我們可以得出本節的第1個重點:

1、如果掌握了某個群體的具體資訊,就能夠推理出從這個群體中正確抽取的隨機樣本的情況。

例如,某個城市正在同時舉行鐵人三項比賽和相撲比賽,比賽前有一輛載滿外國鐵人三項運動員的大巴車失蹤了,結果警察找到了一輛滿是外國大胖子的大巴車。由於語言不通,警察只能根據經驗來判斷。即使鐵人三項選手裡面可能也有幾個體重較大的,但是滿車都是大胖子這是不太可能的,所以呢利用中心極限定理不難推斷出來,警察很可能找錯了車子。當然,這也屬於比較極端的情況。

如果換個場景條件,找到的兩輛車中乘客有胖有瘦,我們該怎麼判斷呢?這個時候我們對乘客的體重進行測量,計算體重分佈的標準差,利用中心極限定理我們仍然能夠判斷出哪輛車是我們要找的。這是因為鐵人三項運動員群體的體重標準差是明顯小於普通群體的。他們的體重分佈更集中,這也是中心極限定理的另一種應用。那就是本節的第2個重點:

2、如果已知兩個樣本的基本特性,就能夠推理出這兩個樣本是不是來自同一個群體。

小結:關於中心極限定理,大家就可以這樣理解了。雖然它的數學計算很複雜,但理解起來並不是那麼難。我們理解了大數定律和中心極限定理就掌握了統計學的概率論基礎。那接下來就可以瞭解一下,一些開展調查統計的基本方法,比如如何採集資料?

第三節:隨機抽樣

通過前兩節的內容我們對大數定律和中心極限定理已經有了一定了解,本節主要講講開展調查統計的基本方法也就是本章的第三個重點“隨機抽樣”。

什麼是隨機抽樣?

按照隨機的原則,即保證總體中每一個物件都有已知的、非零的概率被選入作為研究的物件,保證樣本的代表性。 隨機抽樣法就是調查物件總體中每個部分都有同等被抽中的可能,是一種完全依照機會均等的原則進行的抽樣調查,被稱為是一種“等概率”。隨機抽樣有四種基本形式,即簡單隨機抽樣、等距抽樣、型別抽樣和整群抽樣。它的最大優點是在根據樣本資料推論總體時,可用概率的方式客觀地測量推論值的可靠程度,從而使這種推論建立在科學的基礎上。正因為此,隨機抽樣在社會調查和社會研究中應用較廣泛。常用的隨機抽樣方法主要有純隨機抽樣、分層抽樣、系統抽樣、整群抽樣、多階段抽樣等。

隨機抽樣是我們在工作中收集資料的主要方法,比如開展問卷調查的時候,如果客戶數量龐大,根據中心極限定理只要在客戶中抽取部分有代表性的樣本來填寫問卷,就能夠達到目的。這個選取有代表性樣本的過程,我們稱之為“隨機抽樣”。

所以呢,隨機取樣只是看似簡單,它的關鍵點在於“隨機”這兩個字。要做到隨機,必須保證每個物件被抽到的概率完全相等。這樣抽樣的樣本才代表了整個物件群體。比如說我們想知道100個彈珠中有多少綠色彈珠多少黃色彈珠,只要把它們放進一個盒子裡然後隨機取出30個就能得到基本準確的顏色比例。

那麼問題來了?我們開展調查時的物件大多是我們的使用者,我們所關心的人口組成,遠遠要比一盒子彈珠要複雜。如果不能保證相關人口中的每個人被選為樣本的概率都相同,這樣的抽樣結果就存在偏見,這樣有偏見的樣本往往會得出荒謬的結論。

1、選擇性偏見

具體的我們可以把偏見分成幾類,最常見的叫做“選擇性偏見”。1936年美國總統大選前,文學文摘雜誌曾經向1000萬名訂閱它的美國公民發放問卷,開展候選人民意調查。這份1000萬人的樣本已經非常大了,因為當時的美國的總人口只有不到1億3千萬。調查結果預測共和黨人蘭登將以顯著的優勢當選,然而當大選結果揭曉後民主黨人羅斯福卻以壓倒性的優勢當選了美國總統。

文學文摘的這次民意調查可以說相當失敗,問題就處在編輯們沒有意識到,訂閱這本雜誌的人平均來說要比普通美國民眾更富有,他們更傾向於投票給保護富人利益的共和黨。這樣帶有選擇性偏見的樣本即使容量再大也不能反映出全體美國人的民意。

2、倖存者偏見

還有一類“倖存者偏見”也很常見。當樣本中有資料缺失導致組成發生改變,這種偏見就會出現。

舉一個最常見的案例:很多基金公司經常利用這種偏見來操縱資料吸引投資,基金公司會拿基金業績和股票市場的基準來做比較。比如美國的標準“普爾指數”(類似於我國的上證指數),如果某一年基金的漲幅高於標準普爾指數或者是跌幅低於普爾指數,基金公司就會宣稱我們的基金跑贏了普爾指數。但是要想實實在在的跑贏普爾指數不是一件容易的事,我們從概率學的角度假設,某支基金有1/2的概率能夠跑贏標準普爾指數,那麼連續2年跑贏的基金就只剩下1/4,連續3年跑贏的概率就只有1/8了。

猜猜看,公司會怎麼宣傳自己的基金業績呢?他們通常的做法就是同時開放20支新基金,經過3年的經營總會有2-3支基金連續3年跑贏標準普爾指數,那公司只要把十幾支失敗的基金悄悄關閉,大肆宣傳這2-3支倖存者就可以把投資者的錢騙進來了。而實際上這些所謂倖存基金的產生就像連續拋3次硬幣正面都朝上一樣,接下來的表現會逐漸迴歸平均水平,真正能長期跑贏普爾指數的優秀基金其實是鳳毛麟角。

3、健康使用者偏見

此外“健康使用者”偏見也指的我們警惕,假設衛生部門釋出了一個理論,給孩子穿上紫色睡衣會有助於孩子大腦的發育。那麼20年後我們通過抽樣調查來驗證這個理論,結果顯示在哈弗大學的學生中有98%的人在少年時期是穿著紫色睡衣入睡的,而監獄裡的犯人只有3%的人在少年時穿過紫色睡衣,所以我們得出結論:穿紫色睡衣的孩子確實更有可能取得成功。

這很顯然是很荒謬的結論,那問題出在哪呢?

其實我們用來對比的兩組人並不是通過隨機抽樣得到的,哈弗大學的學生和監獄裡的犯人根本就是兩類人,真正對孩子大腦發育有作用的是給孩子穿上紫色睡衣的家長相比於其他家庭顯然更注重對孩子的家庭教育。’

有些養生欄目頁經常用類似的調查資料來證明多吃蔬菜水果的人更加長壽等等,他們忽略了習慣吃蔬菜水果的人群往往有健康的生活習慣,而那些喜歡高熱量食物的人群很可能收入偏低,在生活的其它方面也沒有健康的習慣,所以,這樣錯誤的抽樣得出的結論是經不起嚴格考證的。

小結:隨機抽樣是我們開展調查統計的第一步,我們要通過正確抽樣來保證第一手的資料是可靠的、沒有偏見的,在這個基礎上我們才能夠應用這些資料對複雜的問題展開研究。在下一節我們將介紹一種強大的統計學方法“迴歸分析”,這是一種非常強大的統計學方法,專門用來分析那些影響因素很多的複雜問題。

第四節:迴歸分析

什麼是迴歸分析?

在統計學中,迴歸分析(regression analysis)指的是確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。迴歸分析按照涉及的變數的多少,分為一元迴歸和多元迴歸分析;按照因變數的多少,可分為簡單迴歸分析和多重回歸分析;按照自變數和因變數之間的關係型別,可分為線性迴歸分析和非線性迴歸分析。

在大資料分析中,迴歸分析是一種預測性的建模技術,它研究的是因變數(目標)和自變數(預測器)之間的關係。這種技術通常用於預測分析,時間序列模型以及發現變數之間的因果關係。例如,司機的魯莽駕駛與道路交通事故數量之間的關係,最好的研究方法就是迴歸。(來自百度百科)

轉化為通俗易懂的文字,你可以這樣理解:迴歸分析就是通過一個已知的現象來找到未知的原因,它可以通過嚴格的數學分析復原出每種原因對結果的貢獻比例。

倫敦大學公共衛生學院曾經組織過一項著名的“白廳研究”,醫學家們發現英國政府裡低級別的公務員患上心臟病的概率比他們的上司更高。白廳研究就是要找出這背後的真實原因,這個研究顯然不能用隨機抽樣的方法來實現,因為我們不可能把各個志願者強行分配到各個工作崗位工作幾年,然後再看哪些人因公殉職了。研究人員只能在很長一段時間裡對數千名公務員進行詳細的資料採集,來對比各類導致心臟病的可能因素。

比如說,低階公務員的學歷普遍偏低,會不會是影響因素呢?菸民比例多呢?還是不能享受到高水平的醫療服務呢?或則是加班多鍛鍊時間少?這些都是導致心臟病高發的變數,那麼到底哪一個才是具有決定性的影響呢?如此龐雜的資料裡有太多錯綜複雜的因素,顯然會干擾研究人員的判斷。這時候我們就要用到迴歸分析這個工具,它的作用就好比一個可以調節孔徑的篩子,能在綜合考慮其它變數效果不變的情況下,把其中一個變數的效果分離出來。

迴歸分析的數學過程比較複雜,幸好我們現在有了成熟的多元線性迴歸方程模型可以套用,我們要做的就是將多個變數的取樣結果帶入迴歸方程式,計算結果就會顯示出我們關注的變數和心臟病發病率的線性關係(迴歸分析軟體:SAS、SPSS、BMDP等)。

通過統計推斷我們就能夠知道,這個變數到底在多大程度上影響了發病率。實驗結果表明,造成心臟病高發的真正原因是對工作缺乏控制力和話語權,而這類存在感較低的崗位在低級別職位中更常見。現在“低控制率”已經成為一個專有名詞了,專指那些精神負擔重,決策水平低的工作。

事實上當前科學界絕大多數的研究結論都是以迴歸分析作為基礎的。尤其是迴歸分析軟體的普及,讓建立模型和解析方程變得很簡單,但同時也要注意電腦永遠不能代替人的工作,如果我們在進行迴歸分析時遺漏的變數或者忽視反面因素,迴歸分析就回得出危險的結論。

比如上世紀90年代,哈弗大學對12萬名女性開展了縱向調查,經過嚴格的迴歸分析證實,定期攝入雌激素的女性突發心臟病的概率只有其他女性的1/3。醫學機構支援了這個觀點,醫院開始定期為中老年婦女進行雌激素的補充治療。然而後來的臨床試驗發現,補充雌激素的副作用會導致乳腺癌和血栓病高發,這是科學家沒有考慮到的重大疏漏。最終因為接受雌激素治療而死亡的女性患者達到上萬人,所以一旦出現數據遺漏,錯誤的資料結果甚至會造成人身傷害。

下面我們使用IBM公司開發的“統計產品與服務解決方案”軟體SPSS(Statistical Product and Service Solutions)做一個簡單的例項,給大家介紹如何使用SPSS做迴歸分析的方法。迴歸分析的方法包括:線性迴歸、邏輯迴歸、多項式迴歸、逐步迴歸等很多種,本次我們就拿就常用的線性迴歸結合案例來給大家講解:年齡和血壓的關係。

開始之前,我們先了解一下線性迴歸到底是怎麼回事?它能做什麼?

線性迴歸的意義

線性迴歸包含:一元線性迴歸和多元線性迴歸。一元線性迴歸又叫做簡單線性迴歸,主要用於判斷是否能通過迴歸模型找到一個“線性組合”,從而證明一組變數(因變數和自變數)的關係。如果能的話,這種關係的強度有多大,也就是利用自變數的線性組合來預測因變數的能力有多強?整體解釋能力是否具有統計上的顯著性意義?在整體解釋能力顯著的情況下,哪些自變數有顯著的意義?

迴歸分析的步驟

  1. 確定迴歸方程中的解釋變數(自變數)和被解釋變數(因變數);
  2. 確定迴歸模型——選擇合適的數學模型概括迴歸線;
  3. 確定迴歸方程——根據樣本資料及確定的迴歸模型,在一定的統計擬合準則下估計模型的引數,得到確定的迴歸方程;
  4. 對迴歸方程進行各種檢驗——基於樣本得到的迴歸方程是否真實反映了總體間的統計關係?迴歸方程能否用於預測?;
  5. 利用迴歸方程進行預測。

一元線性迴歸模型:

模型說明:

X為自變數;

Y為因變數;

Y的截距,即常量;

斜率為迴歸係數,表明自變數對因變數的影響程度;

X的變化引起的Y的線性變化部分:

其它隨機因素引起的Y的變化部分:

對一元線性迴歸有所瞭解以後,我們就拿就用它結合一個簡單的案例:年齡和血壓的關係,建立一個具體的例項。

第一步:匯入資料

開啟SPSS匯入需要分析的表格

第二步:生成散點圖

選擇“簡單散點圖”,得到以下圖形:

通過散點圖觀察變數間的趨勢。如果有多個變數則做出散點圖矩陣、重疊散點圖和三維散點圖。如果我們覺得資料的分佈存在明顯的問題,這時候需要對資料進行預處理,防止後面得到的結果和實際結果相差過大。

第三步:分析結果

我們可以這樣理解:因變數是結果,自變數是原因。在這個例項中我們可以理解為年齡影響血壓。當然這裡要加個疑問,因為我們是分析嘛,在得到最終的結果之前這只是一個假設。

右側點選【統計】按鈕,在彈出的介面做如下勾選

點選右側【圖】按鈕,有些版本叫【繪製】,做如下配置

這兩項配置完成後點選主介面的【確定】按鈕就可以得到輸出結果,我們只擷取部分比較重要的圖示來做講解。

注:軟體原因“德賓-沃森”英文實際為:Durbin-Watson

調整R方就是反映這個模型的擬合度的,簡單說就是我們擬合的兩個變數之間的線性方程與兩個變數真實之間關係的一個擬合度。擬合度通常是在0-1之間的數字。

anova也叫方差分析,主要目的是衡量年齡是否能夠顯著的影響血壓

顯著性也叫Sig,顯著性的結果是0.002也就是0.2%,說明年齡完全不能影響血壓這個假設發生的概率是0.2%,因此我們可以得出結論有99.8%的概率年齡可以顯著影響血壓的。

以上圖示說明年齡對血壓的影響是正向的(0.881),也就是說年齡越大血壓越高。年齡每增加1分,血壓總分就會增加0.881分,這就是自變數和因變數之間的一個定量的影響關係。

當然判斷的依據和資料維度以及最後結果的幾個關鍵值都有密切關係,加入分析的自變數是否正確、數量多少等因素對結果也會產生影響。網上有很多專門介紹線性迴歸的資料教程,在這裡不再詳細描述,建議大家多看多動手多思考,統計學雖然入門比較簡單,但是要真正應用到實際工作中還是需要一定的實際分析經驗的。

小結:統計學原因雖然看似簡單,但卻不是人人都可以做資料分析師,因為它既能給我們的觀點找到嚴謹的資料支援,但有時也會給一個錯誤的結論披上合理的外衣。這就是本章下一節要講的最後一部分:常犯的概率學錯誤。

第五節:常犯的概率學錯誤

一、“黑天鵝”事件

17世紀之前的歐洲人認為天鵝都是白色的,甚至經常用“世界上沒有黑色的天鵝”這句諺語去諷刺那些無中生有的人。但隨著第一隻黑天鵝在澳大利亞被發現,這句諺語就變成了笑談,現在“黑天鵝”一般用來指那些影響很大但難以預測的小概率事件。通過這個例子我們可以瞭解,忽略那些小概率事件,會造成多麼嚴重的後果。

2008年美國次貸危機爆發之前,整個北美金融行業都在使用同一個風險價值模型來預測投資風險。這個模型的強大之處在於它非常精確,它能把華爾街每家公司的資產都進行嚴格的概率學分析,給出預期收益和損失值。並且還能給這些海量的市場資訊整合成一個簡潔的風險指標提供給美聯儲和財政部參考,比如分析了以往市場變動資料後,金融家會根據這個模型給出某項投資在特定週期內可能讓公司蒙受的損失,而這種預測可以覆蓋高達99%的市場風險。

然而這個模型有一個被忽略的致命問題,它的概率學模型參照的是過去20年的市場行為,不能對未知的以外情況作出預測,所以它預測不了黑天鵝的出現。

這隻黑天鵝就是2007年美國商業銀行放貸業務的崩潰,雖然它發生的概率只有不到1%,但悲劇確實發生了。直接導致了一次全球大範圍的金融危機,失業率達到了10%,很多國家和政府都陷入了債務危機,這就是小概率重大事件的破壞力。

難道這是概率學本身出問題了嗎?顯然不是,模型已經告訴了我們有1%的風險無法預測,客人們仍然選擇了無視。所以,最大的風險永遠都不是那些我們能看得見算得出的,而是那些看上去似乎概率很小,我們認為一輩子都不可能發生的風險,但它的確發生了,而且比我們想象的要頻繁的多。

案例小結:忽略小概率事件,有時會造成嚴重的後果

除了黑天鵝還有一個我們容易忽視的問題:統計誤差,統計學雖然有這嚴謹的數學計算,但它並不是完美無缺的。我們通過分析資料推斷出的結論永遠不會是100%正確的,只要資料分析建立在抽樣調查之上,樣本的統計結果和正式情況之間就會存在誤差。雖然隨著樣本數量的增大,實驗次數的增多,這樣的誤差會接近於零,但即使誤差再小,也不能忽視它的存在。

比如第2節介紹的中心極限定理,警察通過計算車內乘客的體重分佈,有99%的把握估計那些體重較大的乘客不是鐵人三項選手,但這個推理還有1%的概率是錯的,原因就在於鐵人三項運動員體重樣本的平均值雖然會接近整體的平均值,但並不能說二者完全相等。就好像從一棵樹上摘的蘋果,如果進行精確的化學分析他們的成分和甜度總會有細微的不同。這就是統計誤差的含義,我們不可能通過資料得出完全確鑿的真相,只能通過合理控制誤差來無限接近真相。

二、檢方謬誤

另外舉一個有趣的例子:檢方謬誤。假設你是一名法官,聽到公訴人陳述這樣的事實“犯罪現場遺留的DNA樣本和被告的DNA相吻合,除了被告以外這個樣本和其他人吻合的概率只有百萬分之一,在這個證據的基礎上你能為被告人定罪嗎?”這時候如果你忽略百萬分之一的誤差就可能會讓無辜的人鋃鐺入獄,這是因為誤差看似很小,但警方的DNA樣本庫數量非常龐大,通過樣本比對找到兩個DNA特徵相似的人並不是不可能的,所以給犯罪分子定罪時,不能死守著概率這種破案工具而忽略了性別、年齡、社會關係等其它線索。

在現實中其實也是一樣的,對那些意義重大的可研結論,人們往往對概率計算有精確的要求,比如物理學家在探測引力波是否真實存在的時候,總計花費了數十億美元用20多年時間來建造探測器,目的就是必須要把實驗誤差控制在一個極其微小的數量級。事實上這個探測器能探測到小數點後21位,10的負21次冪這個尺度上的引力波變化,愛因斯坦一個多世紀前的預言才最終得到了有說服力的證明。

案例小結:通過統計資料推斷出的結論,必定存在誤差,不會100%正確。即使誤差再小,也不能忽視它的存在。

黑天鵝事件和檢方謬誤充分說明人們對小概率事件和微小誤差的錯誤認識,會讓看似精確的概率計算誤入歧途。精確有時候並不意味著準確,客觀事實和我們對概率的直觀感受往往是有差異的。概率學本身不會犯錯,錯誤的是使用它的人。

其實在近代歷史中還存在很多與黑天鵝事件類似的事情,比如:9.11事件,泰坦尼克號、日本地震、中國雪災、光大烏龍等,這些事件的發生大多都是因為忽略小概率事件而引起的,有興趣的朋友可以去詳細瞭解。好了,本章內容到這裡就全部講完了,感謝大家閱讀。

 

本文由 @Mykite 原創釋出於人人都是產品經理。未經許可,禁止轉載。

題圖來自unsplash,基於CC0協議

[玩轉會員資料分析系列之統計學 | 人人都是產品經理](http://www.woshipm.com/data-analysis/917862.html )