秋招材料整理——貝葉斯分類器
阿新 • • 發佈:2018-12-18
一、貝葉斯決策論
1.概念
- 基於概率。對分類任務來說,在所有相關概率均已知的理想情形下,貝葉斯考慮如何基於這些概率和誤判損失來選擇最優的類別標記
- 是一個將真實標記為的樣本誤分類為產生的損失,則基於後驗概率可獲得將分類為所產生的期望損失(“條件風險”) ,我們的任務即為尋找一個判定準則來最小化總體風險
- 判定準則:在每個樣本上選擇能使條件風險最小的類別標記, 即(貝葉斯最優分類器)
- 若誤判損失 則,此時 (最小化分類錯誤率的貝葉斯最優分類器)
2.判別式模型 vs. 生成式模型
- 估計後驗概率主要策略:
- “判別式模型”:直接學習條件分佈來預測。(KNN、SVM、決策樹、線性判別分析LDA、線性迴歸、LR、boosting、條件隨機場CRF)
- “生成式模型”:試圖同時學習輸入資料和標籤的聯合概率,再通過貝葉斯公式獲得進行分類,(樸素貝葉斯,隱馬爾可夫模型)適合小資料集
生成式
- :先驗概率,樣本空間中,各類樣本所佔比例(根據歷史規律確定原因)
- :對的類條件概率,指各自條件下出現的可能性,是所有屬性上的聯合概率,難以從有限樣本上直接估計(由因求果)
- :用於歸一化的“證據”因子。與類標記無關
- :後驗概率。知果求因
二、極大似然估計MLE vs. 最大後驗估計MAP
- 概率是已知模型和引數,推資料。統計是已知資料,推模型和引數。
- 概率和似然:
- 確定,未知 => 概率函式,對不同樣本點,其出現概率是多少
- 確定,未知 => 似然函式,對於不同的模型引數,出現的概率是多少
- 相同:引數化求解.”模型已定,引數未知”,假設資料服從某種分佈,求出分佈引數
- 不同: 極大似然估計:求引數, 使似然函式最大 最大後驗估計:求使最大,不僅讓似然函式大,θ的先驗概率也得大
三、樸素貝葉斯分類器
1.相互獨立
基於貝葉斯公式來估計後驗概率的主要困難在於,類條件概率是所有屬性上的聯合概率,難以從有限的訓練樣本直接估計得到。為了避開這個障礙,樸素貝葉斯分類器需滿足“屬性條件獨立性假設”:對已知類別,假設所有屬性相互獨立
2.樸素貝葉斯分類器:
3.“拉普拉斯修正”
防止類條件概率中的某一屬性概率為0(屬性值未出現)導致總的類條件概率為0而進行的“平滑”處理。第個屬性可能的取值數
4.半樸素貝葉斯分類器
適當考慮一部分屬性之間的相互依賴資訊
5.貝葉斯網
一種因果關係的推理
-
核心是條件概率,本質上是利用先驗知識,確立一個隨機變數之間的關聯約束關係,最終達成方便求取條件概率的目的
-
又稱“信念網”,藉助有向無環圖DAG刻畫屬性之間的依賴關係,使用條件概率表CPT描述屬性的聯合概率分佈(貝葉斯網=<結構,引數>,假設屬性在G中的父節點集為,則Θ包含了每個屬性的聯合條件概率表
-
假設屬性與它的非後裔屬性獨立,則將的聯合概率分佈定義為:
-
幾種常見的貝葉斯網路: 每一個節點在其直接前驅節點的值制定後,這個節點條件獨立於其所有非直接前驅前輩節點
- V型結構:head-to-head型 給定c,a與b必不獨立;c未知,a與b相對獨立(倆豎線)
- 同父結構:tail-to-tail型 給定c,a與b條件獨立;c未知,a和b不獨立 (1)c未知,有,此時,沒法得出,即c未知時,a、b不獨立。 (2)c已知,有