1. 程式人生 > >常用的概率分佈:二項式分佈,貝塔分佈,狄裡克雷分佈

常用的概率分佈:二項式分佈,貝塔分佈,狄裡克雷分佈

知識點:伯努利分佈、二項式分佈、多項式分佈、先驗概率,後驗概率,共軛分佈、貝塔分佈、貝塔-二項分佈、負二項分佈、狄裡克雷分佈,伽馬函式、分佈

一,伯努利分佈(bernouli distribution)

又叫做0-1分佈,指一次隨機試驗,結果只有兩種。也就是一個隨機變數的取值只有0和1。
記為:0-1分佈 或 B(1,p),其中p表示一次伯努利實驗中結果為正或為1的概率。
概率計算:

P(X=0)=p0P(X=1)=p1
期望計算:E(X)=0p0+1p1=p1
最簡單的例子就是,拋一次硬幣,預測結果為正還是反。

二,二項式分佈(binomial distrubution)

表示n次伯努利實驗的結果。
記為:X

Bn,p,其中n表示實驗次數,p表示每次伯努利實驗的結果為1的概率,X表示n次實驗中成功的次數。
概率計算:

P(X=k)=Cknpk(1p)nk,k=0,1,2,...,n
期望計算:E(X)=np
例子就是,求多次拋硬幣,預測結果為正面的次數。

三,多項式分佈(multinomial distribution)

多項式分佈是二項式分佈的擴充套件,不同的是多項式分佈中,每次實驗有n種結果。
概率計算:

P(X1=n1,...,Xk=nk)=n!i=1kpniini!,i=1kni=n0,otherwise期望計算:E(Xi)=npi
最簡單的例子就是多次拋篩子,統計各個面被擲中的次數。

四,先驗概率,後驗概率,共軛分佈

先驗概率和後驗概率 :

先驗概率和後驗概率的概念是相對的,後驗的概率通常是在先驗概率的基礎上加入新的資訊後得到的概率,所以也通常稱為條件概率。比如抽獎活動,5個球中有2個球有獎,現在有五個人去抽,小名排在第三個,問題小明抽到獎的概率是多少?初始時什麼都不知道,當然小明抽到獎的概率P(X=1)=25。但當知道第一個人抽到獎後,小明抽到獎的概率就要發生變化,P(X=1|Y1=1)=14。再比如自然語言處理中的語言模型,需要計算一個單詞被語言模型產生的概率P(w)。當沒有看到任何語料庫的時候,我們只能猜測或者平經驗,或者根據一個文件中單詞w的佔比,來決定單詞的先驗概率P(w)=11000。之後根據獲得的文件越多,我們可以不斷的更新P

(w)=count(w)old+count(w)new|Dold|+|Dnew|。也可以寫成P(w|Dnew)=count(w)old+count(w)new|Dold|+|Dnew|。再比如,你去抓娃娃機,沒抓之前,你也可以估計抓到的概率,大致在15150之間,它不可能是1100012。然後你可以通過投幣,多次使用娃娃機,更據經驗來修正,你對娃娃機抓到娃娃的概率推斷。後驗概率有時候也可以認為是不斷學習修正得到的更精確,或者更符合當前情況下的概率。

共軛分佈 :

通常我們可以假設先驗概率符合某種規律或者分佈,然後根據增加的資訊,我們同樣可以得到後驗概率的計算公式或者分佈。如果先驗概率和後驗概率的符合相同的分佈,那麼這種分佈叫做共軛分佈。共軛分佈的好處是可以清晰明瞭的看到,新增加的資訊對分佈引數的影響,也即概率分佈的變化規律。
這裡有個疑問是,如何由先驗分佈得到後驗分佈,如何選擇?下面舉例beta分佈進行詳解。

p(θ|X)=p(X|θ)p(θ),通常我們稱p(θ|X)為後驗概率,即新增觀測

相關推薦

常用概率分佈:二項式分佈分佈分佈

知識點:伯努利分佈、二項式分佈、多項式分佈、先驗概率,後驗概率,共軛分佈、貝塔分佈、貝塔-二項分佈、負二項分佈、狄裡克雷分佈,伽馬函式、分佈 一,伯努利分佈(bernouli distribution) 又叫做0-1分佈,指一次隨機試驗,結果只有兩種

伯努利分佈、二項分佈、多項分佈分佈分佈、高斯分佈

伯努利分佈: 伯努利分佈(Bernoulli distribution)又名兩點分佈或0-1分佈,介紹伯努利分佈前首先需要引入伯努利試驗(Bernoulli trial)。 伯努利試驗是隻有兩種可能結果的單次隨機試驗,即對於一個隨機變數X而言: 伯努利試驗都可以表達為“是或否”

主題模型TopicModel:隱含分佈LDA

主題模型LDA簡介隱含狄利克雷分佈簡稱LDA(Latent Dirichlet allocation),首先由Blei, David M.、吳恩達和Jordan, Michael I於2003年提出,目前在文字挖掘領域包括文字主題識別、文字分類以及文字相似度計算方面都有應用。

The Dirichlet Distribution 分佈 (PRML 2.2.1)

Dirichlet分佈可以看做是分佈之上的分佈。如何理解這句話,我們可以先舉個例子:假設我們有一個骰子,其有六面,分別為{1,2,3,4,5,6}。現在我們做了10000次投擲的實驗,得到的實驗結果是六面分別出現了{2000,2000,2000,2000,1000,1000}次,如果用每一面出現的次數與試

分佈通俗講解

今天來講一下dirichlet distribution和dirichlet process怎麼回事。力求讓初學者看懂,而且我比較追求motivation,追求數學嚴謹性和簡潔性的大神請移步不要看了。不喜歡看各種細節的也可以直接跳著看文中的結論。 實際上這是學習nonparametric bayesian裡常

多元分佈分佈

將二元分佈的二元情況擴充套件到多元,即可得到對應的多元分佈。 首先先將伯努利分佈擴充套件到多元假設對於離散變數xx,可能有KK個取值,那麼xx一次的觀測值被表示為一個向量,且滿足∑Kk=1xk=1∑k=1Kxk=1,僅有一個維的值為11,其它都為00。

分佈的matlab程式碼實現和R語言函式呼叫

主要參考的是:https://www.douban.com/note/45584915/ 和 http://www.biostatistic.net/thread-33740-1-1.html 最近需要用到狄利克雷分佈,但是找了半天發現matlab沒有現成的工具可用。只

杜教篩(整除分塊積性函式尤拉與莫比烏斯卷積)

參考資料 整除分塊: 當我們求∑ni=1f([ni])∑i=1nf([ni])的時候,如果1到n求一遍感覺太傻了,因為會有很多重複的計算,例如:n=10000時,i在[101,111]時,都有[ni]=9[ni]=9,所以我們只需要對所有數分成如上的一個

python3-分佈

from scipy.stats import beta import numpy as np import matplotlib.pyplot as plt a=0.5 b=0.5 x=np.arange(0.01,1,0.01) y=beta.pdf(x,a,b) plt.plot(x,y) plt.

常用概率分佈函式及隨機特徵

常見分佈的隨機特徵離散隨機變數分佈伯努利分佈(二點分佈)伯努利分佈亦稱“零一分佈”、“兩點分佈”。稱隨機變數X有伯努利分佈, 引數為p(0<p<1),如果它分別以概率p和1-p取1和0為值。EX= p,DX=p(1-p)。伯努利試驗成功的次數服從伯努利分佈,引數p

漫步數理統計二十四——伽瑪、卡方與分佈

本篇博文我們講介紹伽瑪(Γ),卡方(χ2)與貝塔(β)分佈。在高等微積分中已經證明過,對於α>0,積分 ∫∞0yα−1e−ydy 存在且積分值為正數,這個積分稱為α的伽瑪函式,寫成 Γ(α)=∫∞0yα−1e−ydy 如果α=1,顯然 Γ(1)=

、伽馬分佈

最近開始自學PRML,為此又補了概率論中的一些知識點。 相較於古典概率通過各種估計手段來確定引數的分佈,貝葉斯學派則是使用後驗概率來確定,為了方便計算後驗概率,引入共軛先驗分佈來方便計算,這是後話了。 那麼一些常見的共軛後驗分佈有哪些呢?這就引出了這裡的主題

在 SQL 描述資料分佈情況的時候有 Cardinality 和 Selectivity 兩個概念有什麼區別?

What is the difference between cardinality and selectivity? In SQL, cardinality refers to the number of unique values in particular column. So, card

課堂練習--計算陣列的最大值最小值平均值標準差中位數;numpy.random模組提供了產生各種分佈隨機數的陣列;正態分佈;Matplotlib

#計算陣列的最大值,最小值,平均值,標準差,中位數 import numpy as np a=np.array([1, 4, 2, 5, 3, 7, 9, 0]) print(a) a1=np.max(a) #最大值 print(a1) a2=np.min(a) #最小值 print(a2) a3

scrapy-redis例項分佈爬蟲爬取騰訊新聞儲存在資料庫中

本篇文章為scrapy-redis的例項應用,原始碼已經上傳到github: https://github.com/Voccoo/NewSpider 使用到了: python 3.x redis scrapy-redis pymysql Redis-Desktop-Manage

2.常用演算法(推導) 演算法分類演算法原理演算法設計推導---SVMDTree樸素葉斯線性迴歸等;

演算法: 以wx+b=0為基礎的演算法: 感知機->誤分點(xi,yi | i->m)到wx+b的距離和最小,求最優解; 支援向量機->最大間隔; 邏輯迴歸->將wx+b的值作為邏輯函式輸入,進行分類; 線性迴歸->勾畫線性曲線,對

極大似然估計最大後驗概率估計(MAP)葉斯估計

1、貝葉斯公式 三種引數估計方法都和貝葉斯公式有關,因此首先從分析貝葉斯公式入手: 貝葉斯公式可以表達為:   posterior:通過樣本X得到引數的概率 likehood:通過引數得到樣本X的概率 prior:引數的先驗概率,一般是根據人的先驗知識來得出的。比如人們傾

數字訊號產生之高斯分佈的隨機數

uniform.h #pragma once class uniform { private:  double a, b, generate_num;  int * seed;  int s;  int M, N, i, j; public:  uniform()  {

Mybatis-Plus 3.0-beta 釋出超級棒棒糖之

Mybatis-Plus 是一款 Mybatis 動態 SQL 自動注入 Mybatis 增刪改查 CRUD 操作中介軟體, 減少你的開發週期優化動態維護 XML 實體欄位,無入侵全方位 ORM 輔助層讓您擁有更多時間陪家人。有許多朋友和他生活在一起請別忘記他是唯一哦有了他生

通俗理解最大似然估計最大後驗概率估計葉斯估計

以下所有例子都是拋硬幣問題,在兩次試驗中出現正,反兩次結果,求該硬幣出現正面的概率p, 最大似然估計:       假設分佈為伯努利分佈,也就是二項分佈,出現正面的概率是p,則下次出現上述實驗結果現象的概率是:L=P(1-p),如何才能讓下次出現相同結過的概率最大?自然是L