1. 程式人生 > >樸素貝葉斯 拉普拉斯平滑(Laplace Smoothing)

樸素貝葉斯 拉普拉斯平滑(Laplace Smoothing)

轉自:https://blog.csdn.net/qq_25073545/article/details/78621019

拉普拉斯平滑(Laplace Smoothing)又被稱為加 1 平滑,是比較常用的平滑方法。平滑方法的存在時為了解決零概率問題。

背景:為什麼要做平滑處理?

  零概率問題,就是在計算例項的概率時,如果某個量x,在觀察樣本庫(訓練集)中沒有出現過,會導致整個例項的概率結果是0。在文字分類的問題中,當一個詞語沒有在訓練樣本中出現,該詞語調概率為0,使用連乘計算文字出現概率時也為0。這是不合理的,不能因為一個事件沒有觀察到就武斷的認為該事件的概率是0。

拉普拉斯的理論支撐

  為了解決零概率的問題,法國數學家拉普拉斯最早提出用加1的方法估計沒有出現過的現象的概率,所以加法平滑也叫做拉普拉斯平滑。 
  假定訓練樣本很大時,每個分量x的計數加1造成的估計概率變化可以忽略不計,但可以方便有效的避免零概率問題。

應用舉例

  假設在文字分類中,有3個類,C1、C2、C3,在指定的訓練樣本中,某個詞語K1,在各個類中觀測計數分別為0,990,10,K1的概率為0,0.99,0.01,對這三個量使用拉普拉斯平滑的計算方法如下: 
       1/1003 = 0.001,991/1003=0.988,11/1003=0.011 
  在實際的使用中也經常使用加 lambda(1≥lambda≥0)來代替簡單加1。如果對N個計數都加上lambda,這時分母也要記得加上N*lambda。 
這裡寫圖片描述