Machine Learning 4
AI
系列四,距上篇博文已經近一個半月之久了,是時候再動筆寫一篇了,不然無法向幾千個公眾號讀者粉絲交代,感謝大家不掉粉的同時還在增加。
本文將簡單介紹在機器學習領域廣為使用的樸素貝葉斯演算法及其簡單實現,屬於較為基礎普及,高手慎入。
目錄
托馬斯·貝葉斯(Thomas Bayes)
條件概率
條件概率定義
鏈式法則
貝葉斯公式
離散型
連續型
貝葉斯概率論
主觀概率論
貝葉斯概率論意義
樸素貝葉斯(Naive Bayesian)
工作流程
機器學習中應用
小結
1 托馬斯·貝葉斯(Thomas Bayes)
托馬斯·貝葉斯(Thomas Bayes),18世紀英國的神學家、數學家;
有趣的是,貝葉斯當年發明發現概率論是為了證明上帝的存在。事實上,在18,19世紀的西方文明,當科學理論研究到一定程度,都會去信奉,投身,研究宗教,神學,究其原因,顯然與其所處環境及從小接觸宗教,神學有莫大關係,另外引申含義則是當科學研究越深入,到達一定高度後,越覺得大道至簡,不可思議,與很多宗教,神學,佛教等觀念接近或者一致,世界宇宙高度統一的“大統一場理論”。
2 條件概率
條件概率
條件概率是貝葉斯公式的基礎,可以進行些許變換直接推匯出貝葉斯公式,有必要仔細推敲研究一下。
數學定義: P(A|B) = P(AB) / P(B)(P(B) > 0)
條件概率指A, B 兩個事件,隨機事件A在另一個隨機事件B
=> P(AB) = P(A|B) * P(B) = P(B|A) * P(A)
上述藍色推匯出的公式含義是指,事件A和事件B同時發生的概率等於在事件A發生的條件下B也發生的概率乘以事件A發生的概率;或者也等於事件B發生的條件下A也發生的概率乘以事件B發生的概率;
數學家都喜歡玩繞口令,我們還是看圖說話吧,一圖抵千言:
根據上面的文氏圖,可以清楚的看到中間陰影部分表示事件A,B都發生的概率,即聯合概率;對於條件概率在事件B發生的情況下,事件A也發生的概率,即P(A|B) 等於中間陰影面積除以B的面積(P(AB)/ P(B):
1) P(A|B) = P(AB) / P(B)
反之亦然,對於條件概率在事件A發生下,事件B也發生的概率,即P(B|A),同理等於中間陰影面積大小除以A的面積(P(AB)/ P(A):
2) P(B|A) = P(AB) / P(A)
由1),2)變換即得到了我們上面推匯出來條件概率公式:
P(AB) = P(A) P(B|A) = P(B) P(A|B)
上面的文氏圖A, B看起來大小面積一樣,容易讓人產生誤解,我們再看下面一個圖更容易理解體會條件概率的含義:
如P(A|B), 表示若事件B已經發生,為使A也發生,試驗結果必須滿足既在B中有在A中的樣本點,即此點必定屬於AB:
P(A|B) = P(AB) / P(B)
而中間的交集即聯合概率,相對比條件概率,聯合概率則要求更高:
P(X=a,Y=b)
首先包含多個條件,並且所有條件同時成立的概率。
鏈式法則/乘法公式
鏈式法則或稱作乘法法則,通常用於計算多個隨機變數的聯合概率,特別是在變數之間相互為(條件)獨立時會非常有用,我們隨後的樸素貝葉斯演算法就是藉助鏈式法則展開的。
兩個隨機變數的聯合概率:
對於上邊的兩個隨機變數的聯合概率
P(AB) = P(A) P(B|A)
對於N個隨機變數的聯合概率則如下展開:
即,簡寫為如下公式:
在實際中使用鏈式法則時,尤其在機器學習中,則可以較為妥善的選擇隨機變數的展開順序,從而可以讓概率計算變得更簡單,快速