1. 程式人生 > >離散分佈——二項分佈、多項分佈、超幾何分佈

離散分佈——二項分佈、多項分佈、超幾何分佈

二項分佈

伯努利實驗

介紹二項分佈前,先了解一下伯努利實驗。
比如一個雞蛋是否能成功孵出小雞,扔硬幣,進入商店的人是否購買了東西,一個正在生產的產婦是生男生女,這些都是伯努利實驗。它滿足以下條件:1、每次只可能有兩種結果;2、兩次實驗之間互不影響。
和伯努利實驗最常見的問題就是:如果進行n次伯努利實驗,每次成功概率為p,那麼成功k次的概率是多少?這個概率分佈就是二項分佈。

R語言應用

已知某批雞蛋的孵出率prob為0.9,抽取5個雞蛋檢查其孵化情況,這5個雞蛋孵出1、2、3、4、5、6個小雞的概率分別是多少?

dbinom(1,5,0.9)//0.00045
dbinom(2,5
,0.9)
//0.0081 dbinom(3,5,0.9)//0.0729 dbinom(4,5,0.9)//0.32805 dbinom(5,5,0.9)//0.59049

電視臺的某個節目,官方預估收視率為25%,當我們電話訪問了1500人之後,發現收看率只有23%。官方預估的資料準確嗎?

//進行二項分佈檢驗
binom.test(1500*0.23,1500,0.25,alternative = "less")//輸出p值為0.03837,小於0.05,可以確認假設成立,官方資料有水分。

//換一種方式,計算1500個樣本中出現23%收視率的概率,概率太小就可以此否定官方的資料。
pbinom(1500*0.23,1500,0.25)//出現這種情況的概率是0.03836649,這麼小概率的事件被我們碰到了,明顯不可能,那就是官方的資料有水分了。

參考文件

多項分佈

上面提到的伯努利實驗每次結果有兩種可能性,如果實驗結果有多種可能性,實驗結果就滿足多項分佈。這裡舉一些應用例子

1、某種化妝品在市場上共有4個品牌,我們從以往的銷售資料可以知道它們的市場佔有率分別為:10%,20%,50%,20%。可以近似認為消費者只買自己最喜歡的品牌。在商場中隨機挑選10個消費者做調研,讓每個人從這4個品牌中選一個自己最喜歡的品牌。那麼選取各品牌的人數分別為1,2,4,3的概率有多大?
說明:10次實驗,每次4個選項,概率分別為:0.1,0.2,0.5,0.2。
2、擲骰子時,一次擲出豹子的概率有多大?
只要3個點數相同,就是豹子,一共有6種豹子,且每種出現概率相同。每種骰子擲出6個點的概率相同。
說明:一次擲骰子相當於3次實驗,每次實驗有6種結果,概率都是1/6。

R應用

//品牌選擇的概率計算
dmultinom(c(1,2,4,3),prob=c(0.1,0.2,0.5,0.2));//0.0252

//擲骰子擲出豹子的概率計算
p1=dmultinom(c(3,0,0,0,0,0),prob = c(1/6,1/6,1/6,1/6,1/6,1/6));
p2=dmultinom(c(0,3,0,0,0,0),prob = c(1/6,1/6,1/6,1/6,1/6,1/6));
p3=dmultinom(c(0,0,3,0,0,0),prob = c(1/6,1/6,1/6,1/6,1/6,1/6));
p4=dmultinom(c(0,0,0,3,0,0),prob = c(1/6,1/6,1/6,1/6,1/6,1/6));
p5=dmultinom(c(0,0,0,0,3,0),prob = c(1/6,1/6,1/6,1/6,1/6,1/6));
p6=dmultinom(c(0,0,0,0,0,3),prob = c(1/6,1/6,1/6,1/6,1/6,1/6));
//p1=p2=p3=p4=p5=p6=0.00462963
p=0.00462963*6

超幾何分佈

二項分佈中,每次實驗互相獨立。如果互相有影響,那就會出現超幾何分佈。

假設有一批500件的產品,次品有5個,即次品率1%,質檢人員隨機抽取20個進行檢查。
如果採取放回抽取,那就是做20次伯努利實驗,每次實驗的成功概率為1%,抽取到不合格產品的概率滿足二項分佈。如果採取不放回抽取,抽取到不合格產品的概率就滿足超幾何分佈。

//放回抽取,抽取到1,2,3,4,5件次品的概率
dbinom(c(1,2,3,4,5),20,0.01)
//輸出結果為:1.652337e-01 1.585576e-02 9.609552e-04 4.125313e-05 1.333434e-06

//不放回抽取,抽取到1,2,3,4,5件次品的概率
dhyper(c(1,2,3,4,5),5,500,20)
//輸出結果為:1.697266e-01 1.338094e-02 4.986684e-04 8.757606e-06 5.778215e-08

假設我們把樣子和總體的差距無限放大,是否放回對抽取結果的影響越來越小,兩種情況下的概率會趨於接近

dhyper(c(1,2,3,4,5),5,500000000,20)
//2.000000e-07 1.520000e-14 5.471999e-22 9.302399e-30 5.953536e-38
dbinom(c(1,2,3,4,5),20,0.00000001)
//2.000000e-07 1.900000e-14 1.140000e-21 4.844999e-29 1.550400e-36