Detours學習2
阿新 • • 發佈:2020-12-19
1、 什麼是樸素貝葉斯分類方法
2、 概率基礎
2.1 概率(Probability)定義
- 概率定義為一件事情發生的可能性
- 扔出一個硬幣,結果頭像朝上
- 某天是晴天
- P(X) : 取值在[0, 1]
2.2 女神是否喜歡計算案例
在講這兩個概率之前我們通過一個例子,來計算一些結果:
- 問題如下:
那麼其中有些問題我們計算的結果不正確,或者不知道計算,我們有固定的公式去計算
2.3 條件概率與聯合概率
- 聯合概率:包含多個條件,且所有條件同時成立的概率
- 記作:P(A,B)
- 特性:P(A, B) = P(A)P(B)
- 條件概率:就是事件A在另外一個事件B已經發生條件下的發生概率
- 記作:P(A|B)
- 特性:P(A1,A2|B) = P(A1|B)P(A2|B)
注意:此條件概率的成立,是由於A1,A2相互獨立的結果(記憶)
這樣我們計算結果為:
p(程式設計師, 勻稱) = P(程式設計師)P(勻稱) =3/7*(4/7) = 12/49
P(產品, 超重|喜歡) = P(產品|喜歡)P(超重|喜歡)=1/2 * 1/4 = 1/8
那麼,我們知道了這些知識之後,繼續回到我們的主題中。樸素貝葉斯如何分類,這個演算法經常會用在文字分類,那就來看文章分類是一個什麼樣的問題?
這個了類似一個條件概率,那麼仔細一想,給定文章其實相當於給定什麼?結合前面我們將文字特徵抽取的時候講的?所以我們可以理解為
但是這個公式怎麼求?前面並沒有參考例子,其實是相似的,我們可以使用貝葉斯公式去計算
3、 貝葉斯公式
3.1 公式
那麼這個公式如果應用在文章分類的場景當中,我們可以這樣看:
公式分為三個部分:
- P(C):每個文件類別的概率(某文件類別數/總文件數量)
- P(W│C):給定類別下特徵(被預測文件中出現的詞)的概率
- 計算方法:P(F1│C)=Ni/N (訓練文件中去計算)
- Ni為該F1詞在C類別所有文件中出現的次數
- N為所屬類別C下的文件所有詞出現的次數和
- 計算方法:P(F1│C)=Ni/N (訓練文件中去計算)
- P(F1,F2,…) 預測文件中每個詞的概率
如果計算兩個類別概率比較:
所以我們只要比較前面的大小就可以,得出誰的概率大
3.2 文章分類計算
- 假設我們從訓練資料集得到如下資訊
- 計算結果
科技:P(科技|影院,支付寶,雲端計算) =