機器學習中貝葉斯判決、概率分佈、樣本等概念間的關係
以下是在看模型識別,機器學習及數理統計時,對貝葉斯決策、概率分佈、樣本關係的總結,每想到一點就寫下來,比較亂,這塊需要反覆學習、慢慢理解。
1. 機器學習的一些概念:
什麼是機器學習?
機器學習包含哪些基本要素?
機器學習,就是由已知資料,訓練出一個模型,形成一個假設的空間,在拿到新的資料後,能在假設空間搜尋出一個合理的結果。
搜尋出合理的結果,只是評價機器學習的效果,模型的好壞。
如何建立模型,才是機器學習演算法的核心,包括假設,推理,驗證。
如何保證目標概念在假設空間內?
是否有包含所有假設的空間?
如何保證收斂?
假設空間的大小與訓練樣例數量的關係?
概率、貝葉斯公式與機器學習的關係?
概率論,特別是貝葉斯公式,為機器學習提供了強有力的推導依據。
1. 統計與概率、機器學習是什麼關係?
概率論及其分佈函式、特性,是理論基礎。而統計是應用,利用樣本統計量來估計概率模型中的引數,而後更進一步獲取更有用的統計資料。
統計是機器學習中統計判決部分的理論基礎。或者是說統計分析在機器學習方面的應用。
2.
貝葉斯學習
兩個前提條件:
1)類別,一般是已知類別的個數,各個類別的需要概率的初始知識,即先驗概率P(h)。
2)特徵資料在各個類別中的概率分佈,即先驗條件分佈P(x|h)。
待解決的問題:
已知採集的資料:
訓練資料D:包含特徵資料和類別
求:
假設的分類面,或者一個採集到資料的分類。
其中,問題又可分為 類別的先驗概率P(h)已知,和未知兩種情況。
1)P(h)已知的情況。求解,相對簡單,普通的貝葉斯公式。
2)P(h)未知,但一種類別的錯誤率已知的情況,求另外一個類別的錯誤率。可以利用聶曼-皮爾遜決策(N-P判決)來計算決策面。
3. h為類別,D為特徵資料,P(D|h)與P(h|D)的區別?
計算假設目標的概率P(D|h). 假設成立時,觀測到D的概率。有多種假設 都能觀測到資料D,每種假設所佔的比率。先驗概率
P(h|D),假設h的後驗概率,其反應了訓練資料後,假設h成立的概率。其反應了訓練資料的影響。
但先驗概率p(h)是與訓練資料D相互獨立的.
極大後驗假設MAP, max a posteriori 最大可能假設。
MAP = max(P(h|D))
貝葉斯推理的概率,很大程度上依賴於 先驗概率。 首先,需要知道 先驗概率。
由貝葉斯推理,推匯出最大似然估計,再推匯出最小方差估計(平方誤差最小估計)。
---------------------------------------
1.
在模式分類中,貝葉斯決策,比較簡單的場景是:先驗概率已知,然後,某兩種或多種條件下,某事件發生的概率已知。 求出後驗概率,即貝葉斯公式,根據後驗概率的大小,做出決策。
稍微複雜的場景:
先驗概率已知,連續概率密度函式的型別已知,但是引數未知。 有大量的抽樣資料,
則據抽樣資料,估計概率密度函式的引數。
然後,據貝葉斯公式,計算出決策函式,決策面。
拿到決策面,就能對測試資料進行分類了。
在這裡,有幾個問題,如果弄清楚,對貝葉斯決策就會由比較清晰的掌握。
1)什麼判決函式,什麼是判決面?
對特徵點進行分類的介面,就是判決面;而分類介面的函式就是判決函式。
2) 後驗概率與貝葉斯公式的關係,使用後驗概率、貝葉斯決策的先決條件?
類別的經驗分佈概率、特徵在不同類別下的先驗概率(即條件概率)已知,或者可計算
3)經典分佈概率,包括
類別的先驗概率
類別特徵的條件經驗分佈概率,即特徵在不同類別中的概率
4) max 與最小誤差判決面的關係
5)高斯分佈
如何求每個類別的高斯分佈?
相鄰判決面的求解?那非相鄰類別那?
6)高斯分佈的分類,哪些因素有關?
均值:決定中心位置
方差:決定了判決面到中的距離
7) 錯誤率有哪些?
P1(e): P(w2|x), 分類為w1時,錯誤率
P2(e): P(w1|x), 分類為w2時,錯誤率
如何計算總的錯誤率?
P(e) = 積分(max[P(w2|x)*P(x), P(w1|x)*P(x)])
如何應用最大似然估計推導錯誤率?
錯誤樣本的個數t,總樣本個數為N,假設錯誤率為e
則其聯合分佈密度為
二項分佈
求極值
計算出,錯誤率的估計量 t/N
8)聶曼-皮爾遜決策 的使用場景:
P(wi)先驗概率未知,在P2(e)已知的情況下,使P1(e)儘可能小的決策面。求判決閾值。
採用拉格朗日乘數法 進行推導計算。
因為P1(e)錯誤的後果比較嚴重,所以要嚴格限制其錯誤率。
兩種類別的概率密度函式已知:p(x|w1), p(x|w2)
則判決函式為 p(x|w1) / p(x|w2)
判決面為 p(x|w1) / p(x|w2) = lamda, lamda為閾值。
閾值lamda如何求解?
已知錯誤率P1(e),p(x1 | w1), 查表,可以求出閾值
9) 均值向量,協方差矩陣未知情況下,如何利用樣本進行估計
向量形式:均值
協方差矩陣:
bays的訓練,就是利用各個類別的樣本,估計各個類別的方差和均值。然後計算決策面。
判決函式,應該是一組空間的集合;而判決面就是兩組空間的交集/交面。
---------------------------------------
歸納偏置
什麼是無偏的學習器?
期望與樣本均值相等。線性特徵。
學習器必須對目標概念做預先的假設,否則無法對未來的例項進行分類。
由於歸納學習需要預先假設,這種形式,被稱為歸納偏置。 用自己話說就是 歸納假設。
如何評估假設?
1. 估計的方差
均值的誤差程度,也是概率分佈的寬度或散度。隨機變數與其均值的差有多大。即使均值無偏,方差可能比較大。
2. 估計的偏差
期望值,與真實值,差距
精度的分析
即或是分類的精度
樣本錯誤率:統計樣本被錯誤分類的比率
真實錯誤率:按真實概率分佈抽取例項,然後統計器錯誤率
樣本錯誤率與真實錯誤率的關係?
樣本錯誤率是對真實錯誤率的估計。
如何評價這種估計?
統計理論:
100%:真實錯誤率,是樣本錯誤率
95%:真實錯誤率,是一個區間,以樣本錯誤率為中心的區間
百分比,又稱為置信度,而真實錯誤率的區間,又稱為,置信區間。對於二項分佈,樣本個數越大,置信度不變,置信區間就越小。
測試樣本錯誤率多次
每次選用不同的樣本,統計的錯誤率符合 二項分佈。
獨立且多次嘗試的0-1實驗,生成一個獨立的、同分布的隨機變數序列,這個序列
其分佈為 二項分佈
np(1-p) >= 5 或 n>=30時,二項分佈可以用正態分佈近似表示。
--------------------------------------------------
1. 樸素貝葉斯分類器
即MAP,最大後驗概率分類器。如何訓練分類器?
已知訓練資料。
只需統計各個類別的頻率p(h),及特徵資料在各個類別中的頻率(D|h)。
已知待分類資料D,可以求其max(P(h|D)),等同於max(p(hj) * p(D|hj))
2. 貝葉斯網路
是指一組條件概率,而樸素貝葉斯分類器假設所有特徵變數是相互獨立的。而貝葉斯網路將此條件放寬。
理解貝葉斯網路,就需要理解條件獨立性。兩個變數間無相互影響,及相互獨立。條件獨立,兩個變數,在給定條件下,如第三個變數的指定值的條件下,相互獨立。
條件概率,具有傳播性,形成一個鏈式的規則。
如
x -> y -> z -> w
每兩個相鄰變數的條件概率都知道,如何求P(w|x)。這就是貝葉斯定理的概率傳播。
聯合概分佈的求解。
p(xyzw) = p(x) * p(y|x) * p(z|x,y) * p(w|x, y, z)
貝葉斯網路的一個重要性質,一個節點獨立於非前驅節點。即p(xi | x(i-1)...x1) = p(xi | x(i-1)) 類似馬爾科夫過程。
貝葉斯網路,也可以看做馬爾科夫鏈的非線性擴充套件。
結構形式:
有向無環圖(DAG),即是一個前向多段圖的結構
如何學習 貝葉斯置信網路?
1. 可以預先給出網路結構
2. 也可以 由訓練資料來獲取
網路變數如何獲取?
有的可以從訓練樣例中得到,有些不能得到。
需要理解的概念:
1. 條件概率,條件獨立性。
p(x3 | x2, x1) = p(x3 | x2)
p(x3 | x1) 鏈式計算
p(x1 | x3)
或者,可以理解,給定前驅節點的值時,本節點獨立於非前驅節點。而前驅節點不確定時,本節點與非相鄰節點就有不獨立了。
2. 貝葉斯網路的概率推理,概率鏈式計算。
3. 變數消元演算法,進行推理計算
4. 團樹傳播演算法,進行推理計算
5. 近似推理,大數定律
6. 結構學習:發現變數之間的圖關係
7. 引數學習: 決定變數之間相互關聯的量化關係: 最大似然估計,貝葉斯估計
------------------------------------------------------------------------------------------------
高斯混合模型
序列視訊影象,背景分析的處理方式:
1. 直接選用一幀,作為背景
2. 序列影象,加權
3. 高斯混合建模GMM
1)判定
2)更新
前兩個比較好理解。而GMM的理解需要 高斯分佈、樣本與總體的關係理解作為基礎。
單分佈高斯背景建模 是指所有畫素都服從同一分佈。
高斯混合背景建模 是指多個畫素服從不同的高斯分佈,且不同的權值。
首先,假設,一個畫素點作為背景畫素的分佈服從高斯分佈。一個畫素點的連續序列如X1,X2,...Xn都是隨機變數,服從同一正態分佈。即單分佈高斯背景建模
而一個畫素點的實際值就是樣本值。
樣本與樣本值要區分開的。
高斯分佈的引數:期望,方差都是未知的。所以,需要樣本進行估計分析。
由序列影象,可以計算出樣本均值/期望,樣本方差/協方差,再有一個樣本值,與均值、樣本值的關係。當大於某閾值時,就認定為背景,小於某閾值時,判定為前景。
樣本值、均值、方差、權值
學習率