統計之常用的分佈
常用的分佈包括:概率分佈與統計分佈。
一、常用的概率分佈
1. 離散均勻分佈
場景:擲骰子
2. 二項分佈(離散)
場景:擲硬幣
首先描述一下什麼是伯努利過程。
伯努利過程: a.由n次實驗構成
b.每次的實驗結果非0(失敗)即1(成功)
c.每次實驗的成功概率是常數
d.重複試驗是獨立的
二項分佈:一個伯努利實驗成功的概率的為p,n次獨立試驗中成功的次數作為二項隨機變數X,則其概率分佈為:
場景多項式分佈(離散)
場景:擲骰子
3. 泊松分佈(離散)
實驗場景:試驗產生的一個隨機變數X表示在某時間間隔或某個給定區域內結果發生的次數。所給的時間可以是任意長度的。
條件:a.給定的兩個時間間隔內發生的結果之間是相互獨立的
b.在很短時間內發生的概率僅與該時間長度成正比,與範圍之外的結果沒關係
c.在很短的時間內發生超過一個結果的概率可以忽略。
定義:X表示在給定的時間間隔或區域t內發生結果的數量,則其概率分佈為:
X=0,1,2 … 為單位時間內的平均結果數
a 隨著u的增大,泊松分佈的形式越來越對稱。一般認為u>5
b 泊松分佈課看作是二項分佈的極限形式,n很大且p很小時。
應用:當一個隨機事件,例如某電話交換臺收到的呼叫、來到某公共汽車站的乘客、某放射性物質發射出的粒子、顯微鏡下某區域中的白血球等等,以固定的平均瞬時速率λ(或稱密度)隨機且獨立地出現時,那麼這個事件在單位時間(面積或體積)內出現的次數或個數就近似地服從泊松分佈P(λ)。
詳細可見:http://baike.baidu.com/view/79815.htm?fr=aladdin
4. 連續均勻分佈
5. 正態分佈(高斯分佈)
最最重要的,是後面很多統計分析,檢驗的基礎。
定義:均值為u,方差為 的正態隨機變數X的密度為:
參考:http://baike.baidu.com/view/45379.htm?fr=aladdin
6. 伽瑪分佈
LDA的兩大重要函式分佈之一啊!!
伽瑪函式:
伽瑪定義:連續性隨機變數X服從引數為 的伽瑪分佈,則密度函式為:
7. 指數分佈
A.指數分佈是伽瑪分佈的特例,即對應 的伽瑪分佈。
B.類似於泊松過程(用來計算某一段時間下一定數目的泊松事件發生的概率),現在考慮的是事件首次發生所需要的等待時間。
定義:連續性隨機變數X服從引數為 的指數分佈,則密度函式為:
應用場景:排隊論:到達服務設施的時間間隔,
可靠性:部件與系統的時間。
8.對數正態分佈
適用於經過自然對數變換後是一個正態分佈的情況。
二、常用的統計分佈
都與正態分佈有著各種聯絡哈!!
1、 χ2(卡方分佈)
在統計推斷中發揮重要作用。其實一般被歸於統計分佈的。
傳統定義:設 X1,X2,......Xn相互獨立, 都服從標準正態分佈Z~(0,1), 則稱隨機變數χ2=X1^2+X2^2+......+Xn^2所服從的分佈為自由度為 n的χ2分佈.
χ2分佈具有可加性.
對正態分佈要求嚴格
2、T分佈(Student t分佈)
中心極限定理:設從均值為μ、方差為σ^2;(有限)的任意一個總體中抽取樣本量為n的樣本,當n充分大時,樣本均值的抽樣分佈近似服從均值為μ、方差為σ^2/n 的正態分佈。
由於在實際工作中,往往σ是未知的,常用s作為σ的估計值,為了與u變換區別,稱為t變換,統計量t 值的分佈稱為t分佈。T分佈對正太分佈要求不嚴格。
用處:總體均值的推斷或樣本均值是否有顯著差別的問題。
3、F分佈
設X1服從自由度為m的χ2分佈,X2服從自由度為n的χ2分佈,且X1、X2相互獨立,則稱變數F=(X1/m)/(X2/n)所服從的分佈為F分佈,其中第一自由度為m,第二自由度為n.
F用在兩樣本情況下得到關於總體方差的推斷。