常見的離散型和連續型隨機變數的概率分佈
目錄
1 基本概念
在之前的博文中,已經明白了概率分佈函式和概率密度函式。下面來講解一下常見的離散型和連續型隨機變數概率分佈。
在此之前,介紹幾個基本概念:
- 均值(期望值expected value):
- 方差(variance):
- 標準差(standard deviation):
其中,可以證明
2 離散型隨機變數的概率分佈
2.1 二項分佈
如果進行n次不同的實驗,每次試驗完全相同並且只有兩種可能的結果,這樣的實驗結果分佈情況就是二項分佈。最簡單的比如投擲一枚硬幣,不管進行多少次實驗,實驗結果都只有正面朝上或者反面朝上,這就是一個簡單的二項分佈。
二項分佈概率分佈:
其中:n代表n次實驗,x表示實驗結果為T的次數,q是實驗結果為T的概率,q=1-p,表示實驗結果為F的概率。
二項分佈的
均值:
方差:
標準差:
二項分佈對於結果只有兩種情況的隨機事件有非常好的描述,屬於日常生活中最常見、最簡單的隨機變數概率分佈,在知道某種實驗結果概率的情況下,能夠很好推斷實驗次數後發生其中某一結果次數的概率。
2.2 超幾何分佈
2.2.1 概念
超幾何分佈和二項分佈比較相似,二項分佈每次實驗完全一樣,而超幾何分佈前一次的實驗結果會影響後面的實驗結果。簡單地講,二項分佈抽取之後放回元素,而超幾何分佈是無放回的抽取。
超幾何分佈的概率分佈,均值和方差
2.2.2 舉例
在一個口袋中裝有30個球,其中有10個紅球,其餘為白球,這些球除顏色外完全相同。遊戲者一次從中摸出5個球。摸到至少4個紅球就中一等獎,那麼獲一等獎的概率是多少?
解:由題意可見此問題歸結為超幾何分佈模型。
其中N = 30. r = 10. n = 5.
P(一等獎)= P(X=4)+ P(X=5)
由公式
,x=0,1,2,...得:
P(一等獎) = 106/3393
2.3 泊松分佈
2.3.1 概念
泊松分佈適合於描述單位時間內隨機事件發生的次數。泊松分佈適合於描述單位時間(或空間)內隨機事件發生的次數。如某一服務設施在一定時間內到達的人數,電話交換機接到呼叫的次數,汽車站臺的候客人數,機器出現的故障數,自然災害發生的次數,一塊產品上的缺陷數,顯微鏡下單位分割槽內的細菌分佈數等等。
泊松分佈的概率分佈,均值和方差:
泊松分佈的引數λ是單位時間(或單位面積)內隨機事件的平均發生率。
2.3.2 舉例
採用0.05J/㎡紫外線照射大腸桿菌時,每個基因組平均產生3個嘧啶二體。實際上每個基因組二體的分佈是服從泊松分佈的,將取如下形式:
……
3 連續型隨機變數的概率分佈
3.1 均勻分佈
3.1.1 概念
均勻概率分佈(uniform probability distribution)是指連續隨機變數所有可能出現值出現概率都相同。
均勻分佈的概率分佈,均值,方差和標準差:
均值:
方差:
標準差:
如何求解均值和標準差:
3.2 正態分佈
3.2.1 概念
正態分佈是統計學中常見的一種分佈,表現為兩邊對稱,是一種鍾型的概率分佈(bell curve),其概率密度圖為:
概率密度函式為:
其中,是正態隨機變數的均值; 是標準差; 是圓周率,約等於3.1416··· ;e=2.71828⋅⋅⋅
特別的,當且的正態分佈,被稱為標準正態分佈(standard distribution),此時有:
正態分佈轉化為標準正態分佈:
正態分佈x,均值是μ,標準差是σ,z定義為
正態分佈來近似二項分佈 :
當n足夠大的時候,正態分佈對於離散型二項分佈能夠很好地近似。
評價正態分佈 :
如何來確定資料是否正態分佈,主要有以下幾種方法:
1. 圖形感受法:建立直方圖或者枝幹圖,看影象的形狀是否類似正態曲線,既土墩形或者鐘形,並且兩端對稱。
2. 計算區間,看落在區間的百分比是否近似於68%,95%,100%。(切比雪夫法則和經驗法則)
3. 求IQR和標準差s,計算IQR/s,如若是正態分佈,則IQR/s≈1.3.
4. 建立正態概率圖,如果近似正態分佈,點會落在一條直線上。
3.3 指數分佈
3.3.1 概念
指數分佈是描述泊松分佈中事件發生時間間隔的概率分佈。除了用於泊松過程的分析,還有許多其他應用,如以下場景:
- 世界盃比賽中進球之間的時間間隔
- 超市客戶中心接到顧客來電之間的時間間隔
- 流星雨發生的時間間隔
- 機器發生故障之間的時間間隔
-
癌症病人從確診到死亡的時間間隔
指數分佈有如下的適用條件:
1. x是兩個事件發生之間的時間間隔,並且x>0;
2. 事件之間是相互獨立的;
3. 事件發生的頻率是穩定的;
4. 兩個事件不能發生在同一瞬間。
這幾個條件實質上也是使用泊松分佈的前提條件。如果滿足上述條件,則x是一個指數隨機變數,x的分佈是一個指數分佈。如果不滿足上述條件,那麼需要使用Weibull分佈或者gamma分佈。
指數分佈只有一個引數,“λ”,λ是事件發生的頻率,在不同的應用場景中可能有不同名稱:
- 事件頻率
- 到達頻率
- 死亡率
- 故障率
- 轉變率
- …………
λ是單元時間內事件發生的次數,這裡需要注意的是,單元時間可以是秒,分,小時等不同的單位,同時λ根據單元時間度量的不同,其數值也不一樣。如單元時間為1小時,λ為6,則單元時間1分鐘,λ為6/60=0.1
指數分佈的概率密度函式(probability density func,PDF)由λ和x(時間)構成:
均值:
方差:
3.3.2 舉例
一個裝置出現多次故障的時間間隔記錄如下:
23, 261, 87, 7, 120, 14, 62, 47, 225, 71, 246, 21, 42, 20, 5, 12, 120, 11, 3, 14, 71, 11, 14, 11, 16, 90, 1, 16, 52, 95
根據上面資料,我們可以計算得到該裝置發生故障的平均時間是59.6小時,即單位小時時間內發生故障事件的次數為λ=1/59.6=0.0168。
那麼該裝置在3天(72小時)內出現故障的概率是多大呢?即求P(x<72),這就需要計算指數分佈的累積分佈函式:
也即該裝置3天內出現故障的概率大於70%。
4 參考文獻
【2】指數分佈