1. 程式人生 > >資料科學家應知必會的6種常見概率分佈

資料科學家應知必會的6種常見概率分佈

前言

假設你是個大學老師。 在檢查了一週的作業後,對學生進行了打分。 讓錄分員建立一個包含所有學生成績的電子表格,要求是隻含分數不含學生姓名等資訊。

這裡寫圖片描述

於是乎,錄分員一個大粗心,漏錄了好幾個分數,介個時候不知道把誰給漏錄了。來看看怎麼解決這個問題吧。

一種方法是視覺化已錄資料,並從中發現某些資料中的趨勢。

這裡寫圖片描述

上面這個圖就是畫出來的資料的頻率分佈圖。 可以從圖的邊緣隱約看到一條光滑的曲線可以用來定義我們的資料,但是我們也得注意到一個異常,有個段的柱條缺半截似的,也就是這一段分數範圍內的頻率異常低。所以最好是能有些值來把這個短半截給補上。

這就是一個現實生活中用資料分析解決問題的一個例子。對任何科學家而言,不管你是個學生或者是專家,分佈是一個必知的概念。因為這是分析和統計推斷的基礎。

概率概念給了我們計算它的方法,分佈才是幫我們看清資料背後的暗泉湧動。

目錄:

  1. 常見資料型別
  2. 分佈型別
    1. 伯努利分佈(Bernoulli Distribution)
    2. 均勻分佈(Uniform Distribution)
    3. 二項分佈(Binomial Distribution)
    4. 正態分佈(Normal Distribution)
    5. 泊松分佈(Poisson Distribution)
    6. 指數分佈(Exponential Distribution)
  3. 分佈之間的關係
  4. 測一測

一、常見資料型別

在正式的解釋分佈之前,我們先來看一看平時遇到的資料。資料可大致分為離散型資料和連續型資料。

離散型資料

離散型資料顧名思義就是隻取幾個特定的值。例如:當你擲骰子的時候,結果只有1,2,3,4,5,6,不會出現類似1.5,2.5。

連續型資料

在一個給定的範圍內,連續型資料可以取任意值。這個範圍可以是有限的或者是無窮的。例如:一個人的體重或者身高,可以取值54kg,54.4kg,54.33333kg等等都沒有問題。

下面就開始介紹分佈的型別。

二、分佈型別

伯努利分佈(Bernoulli Distribution)

首先從最簡單的分佈開始,伯努利分佈實際上是一個聽起來最容易理解的分佈。

伯努利分佈一次實驗有兩個可能的結果,比如1代表success及0代表failure。隨機變數X

一個取值為1並代表成功,成功概率為p,一個取值為0表示失敗,失敗概率為q或者說1p

這裡,概率分佈函式為px(1p)1x,其中x(0,1),我們也可以寫成如下形式:

P(x)={1ppx=0x=1

成功和失敗的概率沒必要相同,也就是沒必要都是0.5,但是這倆概率加和應該為1,比如可以是下面的圖:

這裡寫圖片描述

這個圖就是p(success)=0.15p(failure)=0.85

下面說一下隨機變數的期望,一個分佈的期望就是這個分佈的均值。服從伯努利分佈的隨機變數X的期望值就是:

E(X)=1p+0(1p)=p

服從伯努利分佈的隨機變數的方差是:

V(X)=E(X2)[E(X)]2=pp2=p(1p)

還有許多伯努利分佈的例子,比如說明天是否會下雨,今天會不會去健身,明天乒乓球比賽是不是會贏。

均勻分佈(Uniform Distribution)

當你擲骰子的時候,結果出現1到6中的任何一個,而任何一個結果出現的概率都是相同的,這就是均勻分佈最原始的雛形。你可能看出來了,與伯努利分佈不同的是,這n個出現的結果的概率都是相同的。

一個隨機變數X為均勻分佈是指密度函式如下:

f(x)=1ba<ab<

下圖為均勻分佈的密度圖的樣子:

這裡寫圖片描述

咱們可以看出來均勻分佈的密度圖是個矩形,這也就是為啥均勻分佈的暱稱是矩形分佈。

對於均勻分佈來說ab都是引數,分佈的引數。

例子:假如花店每日銷售的花束數量均勻分佈,最多40只,最少10只。

我們來嘗試計算每日賣花數量在15到30之間的概率。由於隨機變數所有可能發生的事件的概率和為1,並且賣花數量是均勻分佈,所有在15到30之間的概率為(3015)1(4010)=0.5。類似的對於每日賣花數量大於20發生的概率就是1(2010)1(4010)=23

若隨機變數X服從均勻分佈,那麼它的均值和方差分別為:

Mean->E(X)=(a+b)2

Variance->V(X)=(ba)212

標準的均勻分佈的密度引數為a=0b=0,所以對於標準的均勻分佈的密度函式為:

f(x)={100x1otherwise

二項分佈(Binomial Distribution)

我們假定一個隨機變數,比如X,表示你贏得比賽的次數。 X可能的值是什麼? 它可以是任何數字,贏得比賽的次數。

如果就兩個可能的結果。 成功,失敗。 因此,成功概率= 0.5,失敗的概率可以容易地計算為:q=p1=0.5

只有兩種結果是可能的分佈,如成功或失敗,以及所有試驗的成功和失敗概率相同的情況稱為二項分佈。

發生結果的可能性不同時, 前面的例子如果實驗成功的概率是0.2,那麼失敗的概率可以很容易地計算出來,q=10.2=0.8

每次試驗都是獨立的,因為之前的結果並不決定或影響當前的結果。 只有兩次重複n次的可能結果的實驗稱為二項式。 二項分佈的引數是np,其中n是試驗的總數,p是每個試驗中成功的概率。

基於上述解釋,二項分佈的性質是:

  1. 每次實驗獨立
  2. 試驗中只有兩種可能的結果 - 成功或失敗。
  3. 共進行了n次相同的試驗。
  4. 所有試驗的成功和失敗的概率是相同的。 (試驗是相同的。)

二項分佈的數學表示式由下式給出:

P(x)=n!(nx)!x!pxqnx

一個二項分佈圖,其中成功的概率不等於失敗的概率長這樣:

這裡寫圖片描述

成功概率與失敗概率相等,長這樣:

這裡寫圖片描述

二項分佈均值和方差:

Mean -> μ=np

Variance -> Var(X)=npq

正態分佈(Normal Distribution)

正態分佈可以表示宇宙中大多數的事件發生情況。 如果任何分佈具有以下特徵,則稱為正態分佈:

  1. 均值、中位數、眾數在一個分佈中取相同的值;
  2. 分佈曲線關於x=μ對稱;
  3. 曲線下面的面積總和為;
  4. 中心位置的左半邊和右半邊對應位置的概率取值相同。

正態分佈與二項分佈有很大的不同。 但是,如果試驗次數接近無窮大,則形狀將非常相似。