1. 程式人生 > >統計之常用的分佈

統計之常用的分佈

常用的分佈包括:概率分佈與統計分佈。

一、常用的概率分佈

1.      離散均勻分佈

場景:擲骰子


2.      二項分佈(離散)

場景:擲硬幣

首先描述一下什麼是伯努利過程。

伯努利過程: a.由n次實驗構成

                             b.每次的實驗結果非0(失敗)即1(成功)

                             c.每次實驗的成功概率是常數

                             d.重複試驗是獨立的

二項分佈:一個伯努利實驗成功的概率的為p,n次獨立試驗中成功的次數作為二項隨機變數X,則其概率分佈為:

                

   

場景多項式分佈(離散)

場景:擲骰子

3.      泊松分佈(離散)

實驗場景:試驗產生的一個隨機變數X表示在某時間間隔或某個給定區域內結果發生的次數。所給的時間可以是任意長度的。

 條件:a.給定的兩個時間間隔內發生的結果之間是相互獨立的

             b.在很短時間內發生的概率僅與該時間長度成正比,與範圍之外的結果沒關係

              c.在很短的時間內發生超過一個結果的概率可以忽略。

定義:X表示在給定的時間間隔或區域t內發生結果的數量,則其概率分佈為:                   

  X=0,1,2 … 為單位時間內的平均結果數


a   隨著u的增大,泊松分佈的形式越來越對稱。一般認為u>5

是分佈接近對稱。


b   泊松分佈課看作是二項分佈的極限形式,n很大且p很小時。

   

應用:當一個隨機事件,例如某電話交換臺收到的呼叫、來到某公共汽車站的乘客、某放射性物質發射出的粒子、顯微鏡下某區域中的白血球等等,以固定的平均瞬時速率λ(或稱密度)隨機且獨立地出現時,那麼這個事件在單位時間(面積或體積)內出現的次數或個數就近似地服從泊松分佈P(λ)。

詳細可見:http://baike.baidu.com/view/79815.htm?fr=aladdin

4.      連續均勻分佈

5.      正態分佈(高斯分佈)

最最重要的,是後面很多統計分析,檢驗的基礎。

定義:均值為u,方差為 的正態隨機變數X的密度為:

 



參考:http://baike.baidu.com/view/45379.htm?fr=aladdin

6.      伽瑪分佈

LDA的兩大重要函式分佈之一啊!!

伽瑪函式:     

伽瑪定義:連續性隨機變數X服從引數為 的伽瑪分佈,則密度函式為:

7.      指數分佈

A.指數分佈是伽瑪分佈的特例,即對應 的伽瑪分佈。

B.類似於泊松過程(用來計算某一段時間下一定數目的泊松事件發生的概率),現在考慮的是事件首次發生所需要的等待時間。

定義:連續性隨機變數X服從引數為 的指數分佈,則密度函式為:

應用場景:排隊論:到達服務設施的時間間隔,

可靠性:部件與系統的時間。

8.對數正態分佈

適用於經過自然對數變換後是一個正態分佈的情況。

二、常用的統計分佈

都與正態分佈有著各種聯絡哈!!

1、 χ2(卡方分佈)

在統計推斷中發揮重要作用。其實一般被歸於統計分佈的。

傳統定義:設 X1,X2,......Xn相互獨立, 都服從標準正態分佈Z~(0,1), 則稱隨機變數χ2=X1^2+X2^2+......+Xn^2所服從的分佈為自由度為 n的χ2分佈.

χ2分佈具有可加性.

對正態分佈要求嚴格 


2、T分佈(Student t分佈

中心極限定理:設從均值為μ、方差為σ^2;(有限)的任意一個總體中抽取樣本量為n的樣本,當n充分大時,樣本均值的抽樣分佈近似服從均值為μ、方差為σ^2/n 的正態分佈。

由於在實際工作中,往往σ是未知的,常用s作為σ的估計值,為了與u變換區別,稱為t變換,統計量t 值的分佈稱為t分佈。T分佈對正太分佈要求不嚴格。

用處:總體均值的推斷或樣本均值是否有顯著差別的問題。

3、F分佈

X1服從自由度為mχ2分佈,X2服從自由度為nχ2分佈,且X1X2相互獨立,則稱變數F=(X1/m)/(X2/n)所服從的分佈為F分佈,其中第一自由度為m,第二自由度為n.

 

F用在兩樣本情況下得到關於總體方差的推斷。