1. 程式人生 > >拉普拉斯平滑-My way of ML7.1

拉普拉斯平滑-My way of ML7.1

樸素貝葉斯演算法有一個問題: 某篇文章是娛樂的概率是0這是不合理的,如果詞頻列表中出現很多次數都是0的話,很可能計算結果都是 0.

解決辦法:拉普拉斯平滑

p(Fi|C)=(Ni+alpha)/(N+alpha*m) alpha是指定的係數一般是1,m是訓練文件中統計出來的特徵詞的個數。

API:sklearn.naive_bayes.MultinomiaLNB(alpha=1.0)預設平滑係數1.0

總結

  • 這個演算法不需要調引數
  • 分類效率高,對於缺失資料不敏感,常用於文字分類,分類準確率高
  • 樣本關聯性較大時效果不好
  • 神經網路CNN(深度學習時更新)效果比樸素貝葉斯效果好

@author:[email protected]