1. 程式人生 > >秋招材料整理——貝葉斯分類器

秋招材料整理——貝葉斯分類器

一、貝葉斯決策論

1.概念

  • 基於概率。對分類任務來說,在所有相關概率均已知的理想情形下,貝葉斯考慮如何基於這些概率和誤判損失來選擇最優的類別標記
  • λijλ_{ij}是一個將真實標記為cjc_j的樣本誤分類為cic_i產生的損失,則基於後驗概率p(cix)p(c_i|x)可獲得將xx分類為cic_i所產生的期望損失(“條件風險”) ,我們的任務即為尋找一個判定準則來最小化總體風險
  • 判定準則:在每個樣本上選擇能使條件風險R(cix)R(c_i|x)最小的類別標記, 即h(x)=argminR(cx)h^*(x)=argminR(c|x)
    (貝葉斯最優分類器)
  • 若誤判損失λij={0i==j1i != j\lambda_{ij}= \begin{cases} 0& \text{i==j}\\ 1& \text{i != j} \end{cases}R(cx)=1p(cx)R(c|x)=1-p(c|x),此時 h(x)=argmaxp(cx)h^*(x)=argmax p(c|x)(最小化分類錯誤率的貝葉斯最優分類器)

2.判別式模型 vs. 生成式模型

  • 估計後驗概率主要策略:
    • “判別式模型”:直接學習條件分佈p(cx)p(c|x)來預測cc。(KNN、SVM、決策樹、線性判別分析LDA、線性迴歸、LR、boosting、條件隨機場CRF)
    • “生成式模型”:試圖同時學習輸入資料和標籤的聯合概率p(x,c)p(x,c),再通過貝葉斯公式獲得p(cx)p(c|x)進行分類,(樸素貝葉斯,隱馬爾可夫模型)適合小資料集 生成式 p(cx)=p(x,c)p(x)=p(c)p(xc)p(x)p(c|x)=\frac{p(x,c)}{p(x)}=\frac{p(c)p(x|c)}{p(x)}
      • p(c)p(c):先驗概率,樣本空間中,各類樣本所佔比例(根據歷史規律確定原因p(θ)p(θ)
      • p(xc)p(x|c)xxcc的類條件概率,指各自條件下出現xx的可能性,是所有屬性上的聯合概率,難以從有限樣本上直接估計(由因求果)p()=p(xθ)p(果|因)=p(x|θ)
      • p(x)p(x):用於歸一化的“證據”因子。與類標記無關
      • p(cx)p(c|x):後驗概率。知果求因p()=p(θx)p(因|果)=p(θ|x)

二、極大似然估計MLE vs. 最大後驗估計MAP

  • 概率是已知模型和引數,推資料。統計是已知資料,推模型和引數。
  • 概率和似然:p(xθ)p(x|θ)
    • θθ確定,xx未知 => 概率函式,對不同樣本點xx,其出現概率是多少
    • xx確定,θθ未知 => 似然函式,對於不同的模型引數,出現xx的概率是多少
    • 相同:引數化求解.”模型已定,引數未知”,假設資料服從某種分佈,求出分佈引數
    • 不同: 極大似然估計:求引數θθ, 使似然函式P(x0θ)P(x_0|θ)最大 最大後驗估計:求θθ使P(x0θ)P(θ)P(x_0|θ)P(θ)最大,不僅讓似然函式大,θ的先驗概率也得大

三、樸素貝葉斯分類器

1.相互獨立

基於貝葉斯公式來估計後驗概率P(cx)P(c|x)的主要困難在於,類條件概率P(xc)P(x|c)是所有屬性上的聯合概率,難以從有限的訓練樣本直接估計得到。為了避開這個障礙,樸素貝葉斯分類器需滿足“屬性條件獨立性假設”:對已知類別,假設所有屬性相互獨立

2.樸素貝葉斯分類器:

h(x)=argmaxp(c)i=1dp(xic)h(x)=argmaxp(c)\prod_{i=1}^dp(x_i|c)

3.“拉普拉斯修正”

防止類條件概率中的某一屬性概率為0(屬性值未出現)導致總的類條件概率為0而進行的“平滑”處理。NiN_iii個屬性可能的取值數 p(xic)=Dc,xi+1Dc+Nip(x_i |c)=\frac{|D_{c,x_i } |+1}{|D_c |+N_i }

4.半樸素貝葉斯分類器

適當考慮一部分屬性之間的相互依賴資訊

5.貝葉斯網

一種因果關係的推理

  • 核心是條件概率,本質上是利用先驗知識,確立一個隨機變數之間的關聯約束關係,最終達成方便求取條件概率的目的

  • 又稱“信念網”,藉助有向無環圖DAG刻畫屬性之間的依賴關係,使用條件概率表CPT描述屬性的聯合概率分佈B=&lt;G,θ&gt;B=&lt;G,θ&gt;(貝葉斯網=<結構,引數>,假設屬性xix_i在G中的父節點集為πiπ_i,則Θ包含了每個屬性的聯合條件概率表θxiπi=PB(xiπi)θ_{x_i|π_i}= P_B (x_i |π_i)

  • 假設屬性與它的非後裔屬性獨立,則B=G,ΘB=⟨G,Θ⟩x1,x2,,xdx_1,x_2,…,x_d的聯合概率分佈定義為: PB(x1,x2,...,xd)=i=1dPB(xiπi)=i=1dθxiπiP_B(x_1,x_2,...,x_d)=\prod_{i=1}^dP_B(x_i|π_i)=\prod_{i=1}^dθ_{x_i|π_i}

  • 幾種常見的貝葉斯網路: 每一個節點在其直接前驅節點的值制定後,這個節點條件獨立於其所有非直接前驅前輩節點

    • V型結構:head-to-head型 v型 給定c,a與b必不獨立;c未知,a與b相對獨立aba\perp b(倆豎線) cP(a,b,c)=cP(a)P(b)P(ca,b)=&gt;P(a,b)=P(a)P(b)\sum c P(a,b,c) = \sum c P(a)*P(b)*P(c|a,b) =&gt; P(a,b)=P(a)*P(b)
    • 同父結構:tail-to-tail型 同父 給定c,a與b條件獨立abca⊥b|c;c未知,a和b不獨立 (1)c未知,有P(a,b,c)=P(c)P(ac)P(bc)P(a,b,c)=P(c)*P(a|c)*P(b|c),此時,沒法得出P(a,b)=P(a)P(b)P(a,b) = P(a)P(b),即c未知時,a、b不獨立。 (2)c已知,有P(a,bc)=P(a,b,c)P(c)P(a,b|c)=\frac{P(a,b,c)}{P(c)}