1. 程式人生 > 實用技巧 >Detours學習2

Detours學習2

1、 什麼是樸素貝葉斯分類方法

2、 概率基礎

2.1 概率(Probability)定義

  • 概率定義為一件事情發生的可能性
    • 扔出一個硬幣,結果頭像朝上
    • 某天是晴天
  • P(X) : 取值在[0, 1]

2.2 女神是否喜歡計算案例

在講這兩個概率之前我們通過一個例子,來計算一些結果:

  • 問題如下:

那麼其中有些問題我們計算的結果不正確,或者不知道計算,我們有固定的公式去計算

2.3 條件概率與聯合概率

  • 聯合概率:包含多個條件,且所有條件同時成立的概率
    • 記作:P(A,B)
    • 特性:P(A, B) = P(A)P(B)
  • 條件概率:就是事件A在另外一個事件B已經發生條件下的發生概率
    • 記作:P(A|B)
    • 特性:P(A1,A2|B) = P(A1|B)P(A2|B)

注意:此條件概率的成立,是由於A1,A2相互獨立的結果(記憶)

這樣我們計算結果為:

p(程式設計師, 勻稱) =  P(程式設計師)P(勻稱) =3/7*(4/7) = 12/49 
P(產品, 超重|喜歡) = P(產品|喜歡)P(超重|喜歡)=1/2 *  1/4 = 1/8

那麼,我們知道了這些知識之後,繼續回到我們的主題中。樸素貝葉斯如何分類,這個演算法經常會用在文字分類,那就來看文章分類是一個什麼樣的問題?

這個了類似一個條件概率,那麼仔細一想,給定文章其實相當於給定什麼?結合前面我們將文字特徵抽取的時候講的?所以我們可以理解為

但是這個公式怎麼求?前面並沒有參考例子,其實是相似的,我們可以使用貝葉斯公式去計算

3、 貝葉斯公式

3.1 公式

那麼這個公式如果應用在文章分類的場景當中,我們可以這樣看:

公式分為三個部分:

  • P(C):每個文件類別的概率(某文件類別數/總文件數量)
  • P(W│C):給定類別下特徵(被預測文件中出現的詞)的概率
    • 計算方法:P(F1│C)=Ni/N (訓練文件中去計算)
      • Ni為該F1詞在C類別所有文件中出現的次數
      • N為所屬類別C下的文件所有詞出現的次數和
  • P(F1,F2,…) 預測文件中每個詞的概率

如果計算兩個類別概率比較:

所以我們只要比較前面的大小就可以,得出誰的概率大

3.2 文章分類計算

  • 假設我們從訓練資料集得到如下資訊

  • 計算結果
科技:P(科技|影院,支付寶,雲端計算) =