1. 程式人生 > >機器學習中貝葉斯判決、概率分佈、樣本等概念間的關係

機器學習中貝葉斯判決、概率分佈、樣本等概念間的關係

以下是在看模型識別,機器學習及數理統計時,對貝葉斯決策、概率分佈、樣本關係的總結,每想到一點就寫下來,比較亂,這塊需要反覆學習、慢慢理解。

1. 機器學習的一些概念:

什麼是機器學習?

機器學習包含哪些基本要素?

機器學習,就是由已知資料,訓練出一個模型,形成一個假設的空間,在拿到新的資料後,能在假設空間搜尋出一個合理的結果。

搜尋出合理的結果,只是評價機器學習的效果,模型的好壞。

如何建立模型,才是機器學習演算法的核心,包括假設,推理,驗證。

如何保證目標概念在假設空間內?

是否有包含所有假設的空間?

如何保證收斂?

假設空間的大小與訓練樣例數量的關係?

概率、貝葉斯公式與機器學習的關係?

概率論,特別是貝葉斯公式,為機器學習提供了強有力的推導依據。

1. 統計與概率、機器學習是什麼關係?

概率論及其分佈函式、特性,是理論基礎。而統計是應用,利用樣本統計量來估計概率模型中的引數,而後更進一步獲取更有用的統計資料。

統計是機器學習中統計判決部分的理論基礎。或者是說統計分析在機器學習方面的應用。

2. 

貝葉斯學習

兩個前提條件:

1)類別,一般是已知類別的個數,各個類別的需要概率的初始知識,即先驗概率P(h)。

2)特徵資料在各個類別中的概率分佈,即先驗條件分佈P(x|h)。

待解決的問題:

已知採集的資料:

訓練資料D:包含特徵資料和類別

求:

假設的分類面,或者一個採集到資料的分類。

其中,問題又可分為 類別的先驗概率P(h)已知,和未知兩種情況。

1)P(h)已知的情況。求解,相對簡單,普通的貝葉斯公式。

2)P(h)未知,但一種類別的錯誤率已知的情況,求另外一個類別的錯誤率。可以利用聶曼-皮爾遜決策(N-P判決)來計算決策面。

3. h為類別,D為特徵資料,P(D|h)與P(h|D)的區別?

計算假設目標的概率P(D|h). 假設成立時,觀測到D的概率。有多種假設 都能觀測到資料D,每種假設所佔的比率。先驗概率

P(h|D),假設h的後驗概率,其反應了訓練資料後,假設h成立的概率。其反應了訓練資料的影響。

但先驗概率p(h)是與訓練資料D相互獨立的.

極大後驗假設MAP, max a posteriori 最大可能假設。

MAP = max(P(h|D))

貝葉斯推理的概率,很大程度上依賴於 先驗概率。 首先,需要知道 先驗概率。


由貝葉斯推理,推匯出最大似然估計,再推匯出最小方差估計(平方誤差最小估計)。

---------------------------------------

1. 

在模式分類中,貝葉斯決策,比較簡單的場景是:先驗概率已知,然後,某兩種或多種條件下,某事件發生的概率已知。 求出後驗概率,即貝葉斯公式,根據後驗概率的大小,做出決策。

稍微複雜的場景:

先驗概率已知,連續概率密度函式的型別已知,但是引數未知。 有大量的抽樣資料,

則據抽樣資料,估計概率密度函式的引數。

然後,據貝葉斯公式,計算出決策函式,決策面。

拿到決策面,就能對測試資料進行分類了。

在這裡,有幾個問題,如果弄清楚,對貝葉斯決策就會由比較清晰的掌握。

1)什麼判決函式,什麼是判決面?

對特徵點進行分類的介面,就是判決面;而分類介面的函式就是判決函式。

2) 後驗概率與貝葉斯公式的關係,使用後驗概率、貝葉斯決策的先決條件?

類別的經驗分佈概率、特徵在不同類別下的先驗概率(即條件概率)已知,或者可計算

3)經典分佈概率,包括

類別的先驗概率

類別特徵的條件經驗分佈概率,即特徵在不同類別中的概率

4) max 與最小誤差判決面的關係

5)高斯分佈

如何求每個類別的高斯分佈?

相鄰判決面的求解?那非相鄰類別那?

6)高斯分佈的分類,哪些因素有關?

均值:決定中心位置

方差:決定了判決面到中的距離

7) 錯誤率有哪些?

P1(e): P(w2|x), 分類為w1時,錯誤率

P2(e): P(w1|x), 分類為w2時,錯誤率

如何計算總的錯誤率?

P(e) = 積分(max[P(w2|x)*P(x), P(w1|x)*P(x)])

如何應用最大似然估計推導錯誤率?

錯誤樣本的個數t,總樣本個數為N,假設錯誤率為e

則其聯合分佈密度為

二項分佈

求極值

計算出,錯誤率的估計量 t/N

8)聶曼-皮爾遜決策 的使用場景:

P(wi)先驗概率未知,在P2(e)已知的情況下,使P1(e)儘可能小的決策面。求判決閾值。

採用拉格朗日乘數法 進行推導計算。

因為P1(e)錯誤的後果比較嚴重,所以要嚴格限制其錯誤率。

兩種類別的概率密度函式已知:p(x|w1), p(x|w2)

則判決函式為 p(x|w1) / p(x|w2)

判決面為 p(x|w1) / p(x|w2) = lamda, lamda為閾值。

閾值lamda如何求解?

已知錯誤率P1(e),p(x1 | w1), 查表,可以求出閾值

9) 均值向量,協方差矩陣未知情況下,如何利用樣本進行估計

向量形式:均值

協方差矩陣:

bays的訓練,就是利用各個類別的樣本,估計各個類別的方差和均值。然後計算決策面。

判決函式,應該是一組空間的集合;而判決面就是兩組空間的交集/交面。

---------------------------------------


歸納偏置

什麼是無偏的學習器?

期望與樣本均值相等。線性特徵。

學習器必須對目標概念做預先的假設,否則無法對未來的例項進行分類。

由於歸納學習需要預先假設,這種形式,被稱為歸納偏置。 用自己話說就是 歸納假設。

如何評估假設?

1. 估計的方差

均值的誤差程度,也是概率分佈的寬度或散度。隨機變數與其均值的差有多大。即使均值無偏,方差可能比較大。

2. 估計的偏差

期望值,與真實值,差距

精度的分析

即或是分類的精度

樣本錯誤率:統計樣本被錯誤分類的比率

真實錯誤率:按真實概率分佈抽取例項,然後統計器錯誤率

樣本錯誤率與真實錯誤率的關係?

樣本錯誤率是對真實錯誤率的估計。

如何評價這種估計?

統計理論:

100%:真實錯誤率,是樣本錯誤率

95%:真實錯誤率,是一個區間,以樣本錯誤率為中心的區間

百分比,又稱為置信度,而真實錯誤率的區間,又稱為,置信區間。對於二項分佈,樣本個數越大,置信度不變,置信區間就越小。

測試樣本錯誤率多次

每次選用不同的樣本,統計的錯誤率符合 二項分佈。

獨立且多次嘗試的0-1實驗,生成一個獨立的、同分布的隨機變數序列,這個序列

其分佈為 二項分佈

np(1-p) >= 5 或 n>=30時,二項分佈可以用正態分佈近似表示。

--------------------------------------------------

1. 樸素貝葉斯分類器

即MAP,最大後驗概率分類器。如何訓練分類器?

已知訓練資料。

只需統計各個類別的頻率p(h),及特徵資料在各個類別中的頻率(D|h)。

已知待分類資料D,可以求其max(P(h|D)),等同於max(p(hj) * p(D|hj))

2. 貝葉斯網路

是指一組條件概率,而樸素貝葉斯分類器假設所有特徵變數是相互獨立的。而貝葉斯網路將此條件放寬。

理解貝葉斯網路,就需要理解條件獨立性。兩個變數間無相互影響,及相互獨立。條件獨立,兩個變數,在給定條件下,如第三個變數的指定值的條件下,相互獨立。

條件概率,具有傳播性,形成一個鏈式的規則。

x -> y -> z -> w

每兩個相鄰變數的條件概率都知道,如何求P(w|x)。這就是貝葉斯定理的概率傳播。

聯合概分佈的求解。

p(xyzw) = p(x) * p(y|x) * p(z|x,y) * p(w|x, y, z)

貝葉斯網路的一個重要性質,一個節點獨立於非前驅節點。即p(xi | x(i-1)...x1) = p(xi | x(i-1)) 類似馬爾科夫過程。

貝葉斯網路,也可以看做馬爾科夫鏈的非線性擴充套件。

結構形式:

有向無環圖(DAG),即是一個前向多段圖的結構

如何學習 貝葉斯置信網路?

1. 可以預先給出網路結構

2. 也可以 由訓練資料來獲取

網路變數如何獲取?

有的可以從訓練樣例中得到,有些不能得到。

需要理解的概念:

1. 條件概率,條件獨立性。

p(x3 | x2, x1) = p(x3 | x2)

p(x3 | x1)  鏈式計算

p(x1 | x3)

或者,可以理解,給定前驅節點的值時,本節點獨立於非前驅節點。而前驅節點不確定時,本節點與非相鄰節點就有不獨立了。

2. 貝葉斯網路的概率推理,概率鏈式計算。

3. 變數消元演算法,進行推理計算

4. 團樹傳播演算法,進行推理計算

5. 近似推理,大數定律

6. 結構學習:發現變數之間的圖關係

7. 引數學習: 決定變數之間相互關聯的量化關係: 最大似然估計,貝葉斯估計

------------------------------------------------------------------------------------------------

高斯混合模型

序列視訊影象,背景分析的處理方式:

1. 直接選用一幀,作為背景

2. 序列影象,加權

3. 高斯混合建模GMM

1)判定

2)更新

前兩個比較好理解。而GMM的理解需要 高斯分佈、樣本與總體的關係理解作為基礎。

單分佈高斯背景建模 是指所有畫素都服從同一分佈。

高斯混合背景建模 是指多個畫素服從不同的高斯分佈,且不同的權值。

首先,假設,一個畫素點作為背景畫素的分佈服從高斯分佈。一個畫素點的連續序列如X1,X2,...Xn都是隨機變數,服從同一正態分佈。即單分佈高斯背景建模

而一個畫素點的實際值就是樣本值。

樣本與樣本值要區分開的。

高斯分佈的引數:期望,方差都是未知的。所以,需要樣本進行估計分析。

由序列影象,可以計算出樣本均值/期望,樣本方差/協方差,再有一個樣本值,與均值、樣本值的關係。當大於某閾值時,就認定為背景,小於某閾值時,判定為前景。

樣本值、均值、方差、權值

學習率