常見的離散型和連續型隨機變數的概率分佈

阿新 • • 發佈：2019-01-06

1 基本概念

4 參考文獻

1 基本概念

在之前的博文中，已經明白了概率分佈函式和概率密度函式。下面來講解一下常見的離散型和連續型隨機變數概率分佈。

在此之前，介紹幾個基本概念：

均值（期望值expected value）： $\mu=E(x)=\sum xp(x)$
方差（variance）： $\sigma^2=E[(x-\mu)^2]=\sum (x-\mu)^2p(x)$
標準差（standard deviation): $\sigma =\sqrt {\sigma^2}$

其中，可以證明 $E[(x-\mu^2)]=E(x^2)-\mu^2$

2 離散型隨機變數的概率分佈

2.1 二項分佈

如果進行n次不同的實驗，每次試驗完全相同並且只有兩種可能的結果，這樣的實驗結果分佈情況就是二項分佈。最簡單的比如投擲一枚硬幣，不管進行多少次實驗，實驗結果都只有正面朝上或者反面朝上，這就是一個簡單的二項分佈。

二項分佈概率分佈：

$p(x)=C_{n}^{x} p^xq^{n-x} \space (x=0,1,2,3···,n)$

其中：n代表n次實驗，x表示實驗結果為T的次數，q是實驗結果為T的概率，q=1-p，表示實驗結果為F的概率。

二項分佈的
均值： $\mu=np$
方差： $\sigma^2=npq$
標準差： $\sigma=\sqrt {npq}$
二項分佈對於結果只有兩種情況的隨機事件有非常好的描述，屬於日常生活中最常見、最簡單的隨機變數概率分佈，在知道某種實驗結果概率的情況下，能夠很好推斷實驗次數後發生其中某一結果次數的概率。

2.2 超幾何分佈

2.2.1 概念

超幾何分佈和二項分佈比較相似，二項分佈每次實驗完全一樣，而超幾何分佈前一次的實驗結果會影響後面的實驗結果。簡單地講，二項分佈抽取之後放回元素，而超幾何分佈是無放回的抽取。
超幾何分佈的概率分佈，均值和方差

$p(x)=\frac{C_{r}^{x}C_{N-r}^{n-x}}{C_{N}^{n}}$

$\mu=\frac{nr}{N}$

$\sigma^2=\frac{r(N-r)n(N-n)}{N^2(N-1)}$

2.2.2 舉例

在一個口袋中裝有30個球，其中有10個紅球，其餘為白球，這些球除顏色外完全相同。遊戲者一次從中摸出5個球。摸到至少4個紅球就中一等獎，那麼獲一等獎的概率是多少？

解：由題意可見此問題歸結為超幾何分佈模型。

其中N = 30. r = 10. n = 5.

P（一等獎）= P(X=4）+ P(X=5）

由公式

$p(X=x)=\frac{C_{r}^{x}C_{N-r}^{n-x}}{C_{N}^{n}}$

,x=0,1,2,...得：

P（一等獎） = 106/3393

2.3 泊松分佈

2.3.1 概念

泊松分佈適合於描述單位時間內隨機事件發生的次數。泊松分佈適合於描述單位時間（或空間）內隨機事件發生的次數。如某一服務設施在一定時間內到達的人數，電話交換機接到呼叫的次數，汽車站臺的候客人數，機器出現的故障數，自然災害發生的次數，一塊產品上的缺陷數，顯微鏡下單位分割槽內的細菌分佈數等等。

泊松分佈的概率分佈，均值和方差：

$p(x)=\frac{\lambda^xe^{-\lambda}}{x!}\space (x=0,1,2,···)$

泊松分佈的引數λ是單位時間(或單位面積)內隨機事件的平均發生率。

$\mu=\lambda$

$\sigma^2=\lambda$

2.3.2 舉例

採用0.05J/㎡紫外線照射大腸桿菌時，每個基因組平均產生3個嘧啶二體。實際上每個基因組二體的分佈是服從泊松分佈的，將取如下形式：

……

3 連續型隨機變數的概率分佈

3.1 均勻分佈

3.1.1 概念

均勻概率分佈（uniform probability distribution）是指連續隨機變數所有可能出現值出現概率都相同。

均勻分佈的概率分佈，均值，方差和標準差：

$f(x)=\frac{1}{b-a}(a\leq x\leq b)$

均值： $\mu=\frac{a+b}{2}$

方差： $\sigma=\frac{(b-a)^2}{12}$
標準差： $\sigma=\frac{b-a}{\sqrt {12}}$

如何求解均值和標準差：

3.2 正態分佈

3.2.1 概念

正態分佈是統計學中常見的一種分佈，表現為兩邊對稱，是一種鍾型的概率分佈（bell curve），其概率密度圖為：

æ£æåå¸

概率密度函式為：

其中， $\mu$ 是正態隨機變數的均值； $\sigma$ 是標準差； $\pi$ 是圓周率，約等於3.1416··· ；e=2.71828⋅⋅⋅

特別的，當 $\mu=0$ 且 $\sigma=1$ 的正態分佈，被稱為標準正態分佈（standard distribution），此時有：

正態分佈轉化為標準正態分佈：
正態分佈x，均值是μ，標準差是σ，z定義為 $z=\frac{x-\mu }{\sigma}$

正態分佈來近似二項分佈 :
當n足夠大的時候，正態分佈對於離散型二項分佈能夠很好地近似。

評價正態分佈 :
如何來確定資料是否正態分佈，主要有以下幾種方法：
1. 圖形感受法：建立直方圖或者枝幹圖，看影象的形狀是否類似正態曲線，既土墩形或者鐘形，並且兩端對稱。
2. 計算區間 $\bar x\pm s,\bar x\pm 2s,\bar x\pm 3s$ ，看落在區間的百分比是否近似於68%，95%，100%。（切比雪夫法則和經驗法則）
3. 求IQR和標準差s，計算IQR/s，如若是正態分佈，則IQR/s≈1.3.
4. 建立正態概率圖，如果近似正態分佈，點會落在一條直線上。

æ£ææ¦çå¾

3.3 指數分佈

3.3.1 概念

指數分佈是描述泊松分佈中事件發生時間間隔的概率分佈。除了用於泊松過程的分析，還有許多其他應用，如以下場景：

世界盃比賽中進球之間的時間間隔
超市客戶中心接到顧客來電之間的時間間隔
流星雨發生的時間間隔
機器發生故障之間的時間間隔
癌症病人從確診到死亡的時間間隔

指數分佈有如下的適用條件：
1. x是兩個事件發生之間的時間間隔，並且x>0;
2. 事件之間是相互獨立的；
3. 事件發生的頻率是穩定的；
4. 兩個事件不能發生在同一瞬間。

這幾個條件實質上也是使用泊松分佈的前提條件。如果滿足上述條件，則x是一個指數隨機變數，x的分佈是一個指數分佈。如果不滿足上述條件，那麼需要使用Weibull分佈或者gamma分佈。

指數分佈只有一個引數，“λ”，λ是事件發生的頻率，在不同的應用場景中可能有不同名稱：

事件頻率
到達頻率
死亡率
故障率
轉變率
…………

λ是單元時間內事件發生的次數，這裡需要注意的是，單元時間可以是秒，分，小時等不同的單位，同時λ根據單元時間度量的不同，其數值也不一樣。如單元時間為1小時，λ為6，則單元時間1分鐘，λ為6/60=0.1

指數分佈的概率密度函式（probability density func,PDF）由λ和x(時間)構成：

$f(x)=\lambda e^{-\lambda x}$

均值： $\mu=\frac{1}{\lambda}$

方差： $\sigma^2=\frac{1}{\lambda}$

3.3.2 舉例

一個裝置出現多次故障的時間間隔記錄如下：

23, 261, 87, 7, 120, 14, 62, 47, 225, 71, 246, 21, 42, 20, 5, 12, 120, 11, 3, 14, 71, 11, 14, 11, 16, 90, 1, 16, 52, 95

根據上面資料，我們可以計算得到該裝置發生故障的平均時間是59.6小時，即單位小時時間內發生故障事件的次數為λ=1/59.6=0.0168。
那麼該裝置在3天（72小時)內出現故障的概率是多大呢？即求P(x<72)，這就需要計算指數分佈的累積分佈函式：

$P(X<72)=\int_{0}^{72}\lambda e^{-\lambda x}dx=1-e^{-\lambda(72)}=1-e^{-0.0168*72}=0.7017$
也即該裝置3天內出現故障的概率大於70%。

4 參考文獻

【2】指數分佈

常見的離散型和連續型隨機變數的概率分佈

1 基本概念

2 離散型隨機變數的概率分佈

2.1 二項分佈