深入理解Spark ML：多項式樸素貝葉斯原理與原始碼分析

阿新 • • 發佈：2019-02-04

貝葉斯估計

如果一個給定的類和特徵值在訓練集中沒有一起出現過，那麼基於頻率的估計下該概率將為0。這將是一個問題。因為與其他概率相乘時將會把其他概率的資訊統統去除。所以常常要求要對每個小類樣本的概率估計進行修正，以保證不會出現有為0的概率出現。常用到的平滑就是加1平滑（也稱拉普拉斯平滑）：

P(Xj=ajl|Y=ck)=∑Ni=1I(x(j)i=ajl,yi=ck)+lambda∑Ni=1I(yi=ck)+Sjlambda

lambda>=0，等價於在隨機變數各個取值的頻數上賦予一個正數lambda>0。Sj是特徵Xj取值的類別數，因此使用上式依然有：

∑Sjl=1P(Xj=ajl|

Y=ck)=1

同樣的：

P(Y=ck)=∑Ni=1I(yi=ck)+lambdaN+Klambda

N為資料條數，K為label類別數。

多項式樸素貝葉斯

多項式樸素貝葉斯和上述貝葉斯模型不同的是，上述貝葉斯模型對於某特徵的不同取值代表著不同的類別，而多項式樸素貝葉斯對於某特徵的不同取值代表著該特徵決定該label類別的重要程度。

比如一個文字中，單詞Chinese出現的頻數，1次還是10次，並不代表著Chinese單詞這個特徵的類別，而代表著Chinese單詞這個特徵的決定該文字label類別的重要程度。

log(p(yi))=log(∑Ni=1I(yi=ck)+lambd

a)−log(N+Klambda)

log(P(aj|yi))=log(∑Ni=1aj,yi=ck+lambda)−log(∑Ni=1∑nj=1aj,yi=ck+nlambda)

n為特徵維度數

我們來舉個例子：

這裡寫圖片描述

我們設lambda為1，共有6個不同的單詞，則特徵維度數為6。

這裡寫圖片描述

所以，我們將d5 分類到 yes

API 使用

下面是Spark 樸素貝葉斯的使用例子：

import org.apache.spark.ml.classification.NaiveBayes

// 載入資料
val data = spark.read.format("libsvm" 
).load("data/mllib/sample_libsvm_data.txt")

// 切分資料集與訓練集
val Array(trainingData, testData) = data.randomSplit(Array(0.7, 0.3), seed = 1234L)

// 訓練樸素貝葉斯模型
val model = new NaiveBayes()
  .fit(trainingData)

// 預測
val predictions = model.transform(testData)
predictions.show()

原始碼分析

接下來我們來分析下原始碼～

NaiveBayes

train

NaiveBayes().fit呼叫NaiveBayes的父類Predictor中的fit，將label和weight轉為Double，儲存label和weight原資訊，最後呼叫NaiveBayes的train：

  override protected def train(dataset: Dataset[_]): NaiveBayesModel = {
    trainWithLabelCheck(dataset, positiveLabel = true)
  }

trainWithLabelCheck：

ml假設輸入labels範圍在[0, numClasses). 但是這個實現也被mllib NaiveBayes呼叫，它允許其他型別的輸入labels如{-1, +1}. positiveLabel 用於確定label是否需要被檢查。

 private[spark] def trainWithLabelCheck(
      dataset: Dataset[_],
      positiveLabel: Boolean): NaiveBayesModel = {
      //檢測label
    if (positiveLabel && isDefined(thresholds)) {
      val numClasses = getNumClasses(dataset)
      require($(thresholds).length == numClasses, this.getClass.getSimpleName +
        ".train() called with non-matching numClasses and thresholds.length." +
        s" numClasses=$numClasses, but thresholds has length ${$(thresholds).length}")
    }
    //模型型別 多項式樸素貝葉斯是  Multinomial
    val modelTypeValue = $(modelType)
    val requireValues: Vector => Unit = {
      modelTypeValue match {
        case Multinomial =>
          // 確認所有的值非負
          // values.forall(_ >= 0.0)
          requireNonnegativeValues
        ......
      }
    }
    // Instrumentation 是 一個小封裝，用來定義為一個estimator定義一個training session和該session中有學用的資訊的log方法
    val instr = Instrumentation.create(this, dataset)
    instr.logParams(labelCol, featuresCol, weightCol, predictionCol, rawPredictionCol,
      probabilityCol, modelType, smoothing, thresholds)
    // 得到特徵維度數，即公式中的 n
    val numFeatures = dataset.select(col($(featuresCol))).head().getAs[Vector](0).size
    instr.logNumFeatures(numFeatures)
    // 得到記錄的權重 為設定 預設為 1.0
    val w = if (!isDefined(weightCol) || $(weightCol).isEmpty) lit(1.0) else col($(weightCol))

    // 聚合
    val aggregated = dataset.select(col($(labelCol)), w, col($(featuresCol))).rdd
      .map { row => (row.getDouble(0), (row.getDouble(1), row.getAs[Vector](2)))
      // 根據key labelCol 進行聚合
      // value 的初始值為 0.0,Vectors.zeros(numFeatures).toDense
      }.aggregateByKey[(Double, DenseVector)]((0.0, Vectors.zeros(numFeatures).toDense))(
      // 合併在同一

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    深入理解Spark ML：多項式樸素貝葉斯原理與原始碼分析
      
							
							
							





貝葉斯估計

如果一個給定的類和特徵值在訓練集中沒有一起出現過，那麼基於頻率的估計下該概率將為0。這將是一個問題。因為與其他概率相乘時將會把其他概率的資訊統統去除。所以常常要求要對每個小類樣本的概率估計進行修正，以保證不會出現有為0的概率出現。常用到 

  
 

    

    
    深入理解Spark ML：基於ALS矩陣分解的協同過濾演算法與原始碼分析
      
							
							
							



1. 引言

隨著網際網路的迅猛發展,為了滿足人們在繁多的資訊中獲取自己需要內容的需求,個性化推薦應用而生。協同過濾推薦是其中運用最為成功的技術之一。其中,基於使用者的最近鄰法根據相似使用者的評分來預測當前使用者的評分。然而,在使用者數量以及使用者評分不 

  
 

    

    
    機器學習之路： python 樸素貝葉斯分類器 預測新聞類別
      groups   group   news   ckey   put   epo   test   electron   final    
使用python3 學習樸素貝葉斯分類api
設計到字符串提取特征向量
歡迎來到我的git下載源代碼: https://github.com/linyi0604/kag 

  
 

    

    
    統計學習四：1.樸素貝葉斯
      isp   基本   基礎   ase   問題   math   ots   特征   正數   
全文引用自《統計學習方法》（李航）

樸素貝葉斯(naive Bayes)法 是以貝葉斯定理為基礎的一中分類方法，它的前提條件是假設特征條件相互獨立。對於給定的訓練集，它首先基於特征條件假設的前提條件，去學習 

  
 

    

    
    大資料之Spark（七）--- Spark機器學習，樸素貝葉斯，酒水評估和分類案例學習，垃圾郵件過濾學習案例，電商商品推薦，電影推薦學習案例
       
 
 一、Saprk機器學習介紹
------------------------------------------------------------------
    1.監督學習
        a.有訓練資料集,符合規範的資料
        b.根據資料集，產生一個推斷函式
         

  
 

    

    
    sklearn實現多項式樸素貝葉斯
       
  
  
 以下程式碼是利用sklearn自帶的資料庫來實現對垃圾郵件的分類，關於樸素貝葉斯實現分類的原理網上有很多教程，這裡不再贅述，直接上程式碼： 
 # --*-- coding:utf-8 --*--
from sklearn.datasets import fetch_20newsgroups 

  
 

    

    
    自然語言處理一：基於樸素貝葉斯的語種檢測
      
                
本文來自是對七月線上寒小陽自然語言處理課程的總結。
本文使用樸素貝葉斯完成一個語種檢測的分類器，準確度經過簡單的引數調優可以達到99.1%。


機器學習的演算法要取得好效果，離不開資料，咱們先拉點資料（twitter資料，包含English,
 French, Germa 

  
 

    

    
    機器學習：半樸素貝葉斯分類器
      
								
								            
						
                

請點選上面公眾號，免費訂閱。

主要推送關於對演算法的思考以及應用的訊息。培養思維能力，注重過程，挖掘背後的原理，刨根問底。本著嚴謹和準確的態度，目標是撰寫實用和啟發性的文章，歡迎您的關注。


0 

  
 

    

    
    資料探勘十大演算法（九）：樸素貝葉斯原理、例項與Python實現
      
                一、條件概率的定義與貝葉斯公式



二、樸素貝葉斯分類演算法

樸素貝葉斯是一種有監督的分類演算法，可以進行二分類，或者多分類。一個數據集例項如下圖所示：



現在有一個新的樣本， X = (年齡：<=30, 收入：中， 是否學生：是， 信譽：中)，目標是利用樸素貝 

  
 

    

    
    資料探勘：基於樸素貝葉斯分類演算法的文字分類實踐
      
                
前言：
  如果你想對一個陌生的文字進行分類處理，例如新聞、遊戲或是程式設計相關類別。那麼貝葉斯分類演算法應該正是你所要找的了。貝葉斯分類演算法是統計學中的一種分類方法，它利用概率論中的貝葉斯公式進行擴充套件。所以，這裡建議那些沒有概率功底或是對概率論已經忘記差不多的讀者可 

  
 

    

    
    javascript實現樸素貝葉斯分類與決策樹ID3分類
      .com   訓練集   this   ice   map   ive   sum   length   roc   今年畢業時的畢設是有關大數據及機器學習的題目。因為那個時間已經步入前端的行業自然選擇使用JavaScript來實現其中具體的算法。雖然JavaScript不是做大數據處理的最佳語言，相比還沒有 

  
 

    

    
    樸素貝葉斯原理及sklearn呼叫
       
 
  
  
 一、原理 
 與其他大多數的分類演算法不同，如：決策樹、KNN、邏輯迴歸等，它們都是判別方法，直接學習出類別y和特徵x之間的關係。樸素貝葉斯屬於生成方法，它的理論基礎是貝葉斯公式：
     
      
       
        
         P
        
    

  
 

    

    
    樸素貝葉斯原理
       
  
  
 （1）全概率公式 
   如果事件組
     
      
       
        
         
          B
         
         
          1
         
        
        
         ,
     

  
 

    

    
    機器學習之樸素貝葉斯演算法與程式碼實現
                                          樸素貝葉斯演算法與程式碼實現

演算法原理
樸素貝葉斯是經典的機器學習演算法之一，也是為數不多的基於概率論的分類演算法。樸素貝葉斯原理簡單，也很容易實現，多用於文字分類，比如垃圾郵件過濾。
該演算法的優點在於簡單易懂、學習效率高、在某些領 

  
 

    

    
    樸素貝葉斯原理及python實現
      
								
								            
						
                
一、貝葉斯演算法引入
      樸素貝葉斯演算法是基於貝葉斯定理和特徵條件獨立假設的分類法，是一種基於概率分佈的分類演算法。
      貝葉斯分類演算法，通俗的來講，在給定資料集的前提下，對於一個 

  
 

    

    
    機器學習實戰  樸素貝葉斯原理及程式碼
      
#---------------------------從文字中構建詞條向量-------------------------
#1 要從文字中獲取特徵，需要先拆分文字，這裡特徵是指來自文字的詞條，每個詞
#條是字元的任意組合。詞條可以理解為單詞，當然也可以是非單詞詞條，比如URL
#IP地址或者其他任意字 

  
 

    

    
    分類演算法-----樸素貝葉斯原理和python實現
      
                本文主要介紹一下內容：1貝葉斯，2 樸素貝葉斯的推導，3 最大似然估計的推到過程，4樸素貝葉斯的計算步驟 ，5 貝葉斯估計

1 貝葉斯

 假設有兩類資料p1(x,y)表示（x,y）屬於類別1，用p2(x,y)表示（x,y）屬於類別2，那麼對於一個新的資料集（x,y），可以 

  
 

    

    
    樸素貝葉斯原理及實現
      
								
								            
						
                
一、理論基礎
（一）樸素貝葉斯定理
簡單的說：一個樣本屬於某個類別的概率是：這個類別出現的概率 * 已知這個類別出現的情況下各個屬性出現的概率的乘積
根據貝葉斯定理，事件X發生時，類別Ci發生的後驗概 

  
 

    

    
    《統計學習方法》第4章樸素貝葉斯法與貝葉斯估計
      
								
								            
							
							
							前言
寫本文章主要目的是複習（畢竟之前看紙質版做的筆記）， 對於證明比較跳躍和勘誤的地方我都做了註解，以便初學者和以後複習地時候快速閱讀理解不會卡住。
本文原文將書上所有證明給出，由於CSDN的公式編輯 

  
 

    

    
    深入理解線性迴歸演算法（三）：淺談貝葉斯線性迴歸
       
 
 
 前言 
 上文介紹了正則化項與貝葉斯的關係，正則化項對應於貝葉斯的先驗分佈，因此通過設定引數的先驗分佈來調節正則化項。本文首先介紹了貝葉斯線性迴歸的相關性質，和正則化引數λ的作用，然後簡單介紹了貝葉斯思想的模型比較，最後總結全文。 
   
 目錄 
 
 1、後驗引數分佈和預測變數分

深入理解Spark ML：多項式樸素貝葉斯原理與原始碼分析

貝葉斯估計

多項式樸素貝葉斯

API 使用

原始碼分析

NaiveBayes

train

trainWithLabelCheck：

深入理解Spark ML：多項式樸素貝葉斯原理與原始碼分析

深入理解Spark ML：基於ALS矩陣分解的協同過濾演算法與原始碼分析

機器學習之路： python 樸素貝葉斯分類器預測新聞類別

統計學習四：1.樸素貝葉斯

大資料之Spark（七）--- Spark機器學習，樸素貝葉斯，酒水評估和分類案例學習，垃圾郵件過濾學習案例，電商商品推薦，電影推薦學習案例

sklearn實現多項式樸素貝葉斯

自然語言處理一：基於樸素貝葉斯的語種檢測

機器學習：半樸素貝葉斯分類器

資料探勘十大演算法（九）：樸素貝葉斯原理、例項與Python實現

資料探勘：基於樸素貝葉斯分類演算法的文字分類實踐

javascript實現樸素貝葉斯分類與決策樹ID3分類

樸素貝葉斯原理及sklearn呼叫

樸素貝葉斯原理

機器學習之樸素貝葉斯演算法與程式碼實現

樸素貝葉斯原理及python實現

機器學習實戰樸素貝葉斯原理及程式碼

分類演算法-----樸素貝葉斯原理和python實現

樸素貝葉斯原理及實現

《統計學習方法》第4章樸素貝葉斯法與貝葉斯估計

深入理解線性迴歸演算法（三）：淺談貝葉斯線性迴歸