1. 程式人生 > >常見的離散型和連續型隨機變數的概率分佈

常見的離散型和連續型隨機變數的概率分佈

目錄

1 基本概念

4 參考文獻

1 基本概念

在之前的博文中,已經明白了概率分佈函式和概率密度函式。下面來講解一下常見的離散型和連續型隨機變數概率分佈。

在此之前,介紹幾個基本概念:

  • 均值(期望值expected value):\mu=E(x)=\sum xp(x)
  • 方差(variance): \sigma^2=E[(x-\mu)^2]=\sum (x-\mu)^2p(x)
  • 標準差(standard deviation):\sigma =\sqrt {\sigma^2}

其中,可以證明E[(x-\mu^2)]=E(x^2)-\mu^2

2 離散型隨機變數的概率分佈

2.1 二項分佈

如果進行n次不同的實驗,每次試驗完全相同並且只有兩種可能的結果,這樣的實驗結果分佈情況就是二項分佈。最簡單的比如投擲一枚硬幣,不管進行多少次實驗,實驗結果都只有正面朝上或者反面朝上,這就是一個簡單的二項分佈。 

二項分佈概率分佈:

p(x)=C_{n}^{x} p^xq^{n-x} \space (x=0,1,2,3···,n)

其中:n代表n次實驗,x表示實驗結果為T的次數,q是實驗結果為T的概率,q=1-p,表示實驗結果為F的概率。

二項分佈的 
均值:\mu=np
方差:\sigma^2=npq
標準差:\sigma=\sqrt {npq}
二項分佈對於結果只有兩種情況的隨機事件有非常好的描述,屬於日常生活中最常見、最簡單的隨機變數概率分佈,在知道某種實驗結果概率的情況下,能夠很好推斷實驗次數後發生其中某一結果次數的概率。

2.2 超幾何分佈 

2.2.1 概念

超幾何分佈和二項分佈比較相似,二項分佈每次實驗完全一樣,而超幾何分佈前一次的實驗結果會影響後面的實驗結果。簡單地講,二項分佈抽取之後放回元素,而超幾何分佈是無放回的抽取。 
超幾何分佈的概率分佈,均值和方差

p(x)=\frac{C_{r}^{x}C_{N-r}^{n-x}}{C_{N}^{n}}

\mu=\frac{nr}{N}

\sigma^2=\frac{r(N-r)n(N-n)}{N^2(N-1)}

2.2.2 舉例

在一個口袋中裝有30個球,其中有10個紅球,其餘為白球,這些球除顏色外完全相同。遊戲者一次從中摸出5個球。摸到至少4個紅球就中一等獎,那麼獲一等獎的概率是多少?

解:由題意可見此問題歸結為超幾何分佈模型。

其中N = 30. r = 10. n = 5.

P(一等獎)= P(X=4)+ P(X=5)

由公式

 p(X=x)=\frac{C_{r}^{x}C_{N-r}^{n-x}}{C_{N}^{n}}

,x=0,1,2,...得:

P(一等獎) = 106/3393

2.3 泊松分佈 

2.3.1 概念

泊松分佈適合於描述單位時間內隨機事件發生的次數。泊松分佈適合於描述單位時間(或空間)內隨機事件發生的次數。如某一服務設施在一定時間內到達的人數,電話交換機接到呼叫的次數,汽車站臺的候客人數,機器出現的故障數,自然災害發生的次數,一塊產品上的缺陷數,顯微鏡下單位分割槽內的細菌分佈數等等。

泊松分佈的概率分佈,均值和方差: 

p(x)=\frac{\lambda^xe^{-\lambda}}{x!}\space (x=0,1,2,···)

泊松分佈的引數λ是單位時間(或單位面積)內隨機事件的平均發生率。

\mu=\lambda

\sigma^2=\lambda

2.3.2 舉例

採用0.05J/㎡紫外線照射大腸桿菌時,每個基因組平均產生3個嘧啶二體。實際上每個基因組二體的分佈是服從泊松分佈的,將取如下形式:

……

3 連續型隨機變數的概率分佈

3.1 均勻分佈 

3.1.1 概念

均勻概率分佈(uniform probability distribution)是指連續隨機變數所有可能出現值出現概率都相同。 
均勻分佈 
均勻分佈的概率分佈,均值,方差和標準差: 

f(x)=\frac{1}{b-a}(a\leq x\leq b)

均值:\mu=\frac{a+b}{2}

方差:\sigma=\frac{(b-a)^2}{12}
標準差:\sigma=\frac{b-a}{\sqrt {12}}

如何求解均值和標準差:

3.2 正態分佈

3.2.1 概念

正態分佈是統計學中常見的一種分佈,表現為兩邊對稱,是一種鍾型的概率分佈(bell curve),其概率密度圖為:

æ­£æåå¸

概率密度函式為:

其中,\mu是正態隨機變數的均值; \sigma是標準差; \pi是圓周率,約等於3.1416··· ;e=2.71828⋅⋅⋅

特別的,當\mu=0\sigma=1的正態分佈,被稱為標準正態分佈(standard distribution),此時有:

正態分佈轉化為標準正態分佈: 
正態分佈x,均值是μ,標準差是σ,z定義為z=\frac{x-\mu }{\sigma}

正態分佈來近似二項分佈 :
當n足夠大的時候,正態分佈對於離散型二項分佈能夠很好地近似。 
二項分佈

評價正態分佈 :
如何來確定資料是否正態分佈,主要有以下幾種方法: 
1. 圖形感受法:建立直方圖或者枝幹圖,看影象的形狀是否類似正態曲線,既土墩形或者鐘形,並且兩端對稱。 
2. 計算區間\bar x\pm s,\bar x\pm 2s,\bar x\pm 3s,看落在區間的百分比是否近似於68%,95%,100%。(切比雪夫法則和經驗法則) 
3. 求IQR和標準差s,計算IQR/s,如若是正態分佈,則IQR/s≈1.3.
4. 建立正態概率圖,如果近似正態分佈,點會落在一條直線上。 

æ­£ææ¦çå¾

3.3  指數分佈 

3.3.1 概念

指數分佈是描述泊松分佈中事件發生時間間隔的概率分佈。除了用於泊松過程的分析,還有許多其他應用,如以下場景:

  • 世界盃比賽中進球之間的時間間隔
  • 超市客戶中心接到顧客來電之間的時間間隔
  • 流星雨發生的時間間隔
  • 機器發生故障之間的時間間隔
  • 癌症病人從確診到死亡的時間間隔

指數分佈有如下的適用條件: 
1. x是兩個事件發生之間的時間間隔,並且x>0; 
2. 事件之間是相互獨立的; 
3. 事件發生的頻率是穩定的; 
4. 兩個事件不能發生在同一瞬間。

這幾個條件實質上也是使用泊松分佈的前提條件。如果滿足上述條件,則x是一個指數隨機變數,x的分佈是一個指數分佈。如果不滿足上述條件,那麼需要使用Weibull分佈或者gamma分佈。

指數分佈只有一個引數,“λ”,λ是事件發生的頻率,在不同的應用場景中可能有不同名稱:

  • 事件頻率
  • 到達頻率
  • 死亡率
  • 故障率
  • 轉變率
  • …………

λ是單元時間內事件發生的次數,這裡需要注意的是,單元時間可以是秒,分,小時等不同的單位,同時λ根據單元時間度量的不同,其數值也不一樣。如單元時間為1小時,λ為6,則單元時間1分鐘,λ為6/60=0.1

指數分佈的概率密度函式(probability density func,PDF)由λ和x(時間)構成:

f(x)=\lambda e^{-\lambda x}

均值:\mu=\frac{1}{\lambda}

方差:\sigma^2=\frac{1}{\lambda}

3.3.2 舉例

一個裝置出現多次故障的時間間隔記錄如下:

23, 261, 87, 7, 120, 14, 62, 47, 225, 71, 246, 21, 42, 20, 5, 12, 120, 11, 3, 14, 71, 11, 14, 11, 16, 90, 1, 16, 52, 95

根據上面資料,我們可以計算得到該裝置發生故障的平均時間是59.6小時,即單位小時時間內發生故障事件的次數為λ=1/59.6=0.0168。 
那麼該裝置在3天(72小時)內出現故障的概率是多大呢?即求P(x<72),這就需要計算指數分佈的累積分佈函式: 

P(X<72)=\int_{0}^{72}\lambda e^{-\lambda x}dx=1-e^{-\lambda(72)}=1-e^{-0.0168*72}=0.7017
也即該裝置3天內出現故障的概率大於70%。

4 參考文獻

【2】指數分佈