1. 程式人生 > >【黎明傳數==>機器學習速成寶典】模型篇05——樸素貝葉斯【Naive Bayes】(附python代碼)

【黎明傳數==>機器學習速成寶典】模型篇05——樸素貝葉斯【Naive Bayes】(附python代碼)

pytho res tex 機器學習 樸素貝葉斯 spa 什麽 之一 類別

目錄

  先驗概率與後驗概率

  什麽是樸素貝葉斯

  模型的三個基本要素

  構造kd樹

  kd樹的最近鄰搜索

  kd樹的k近鄰搜索

  Python代碼(sklearn庫)


先驗概率與後驗概率

什麽K近鄰算法(k-Nearest Neighbor,kNN)

  引例

  有一個訓練集包含100個實例,屬性是皮膚顏色(黑、白、黃),標記是地區(亞洲、非洲、北美洲人)。在訓練集中有30個非洲人(28個黑人),有50個亞洲人(1個黑人),有20個北美洲人(5個黑人)。請訓練一個貝葉斯模型。

  當一個訓練集外的黑人來報道,我們該如何判斷他的地區呢?樸素貝葉斯分類器會預測他的老家是非洲的,原理就是“非洲人裏黑人的比例比其他州都要高”。樸素貝葉斯模型會將實例分到後驗概率最大的類中。

  百度百科定義

  鄰近算法,或者說K最近鄰(kNN,k-NearestNeighbor)分類算法是數據挖掘分類技術中最簡單的方法之一。所謂K最近鄰,就是k個最近的鄰居的意思,說的是每個樣本都可以用它最接近的k個鄰居來代表。
  kNN算法的核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別,並具有這個類別上樣本的特性。該方法在確定分類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。 kNN方法在類別決策時,只與極少量的相鄰樣本有關。由於kNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對於類域的交叉或重疊較多的待分樣本集來說,kNN方法較其他方法更為適合。

【黎明傳數==>機器學習速成寶典】模型篇05——樸素貝葉斯【Naive Bayes】(附python代碼)