Naive Bayes 樸素貝葉斯的JAVA程式碼實現

阿新 • • 發佈：2019-01-25

1.關於貝葉斯分類

bayes 是一種統計學分類方法，它基於貝葉斯定理，它假定一個屬性值對給定類的影響獨立於其它屬性點的值。該假定稱作類條件獨立。做次假定是為了簡化所需計算，並在此意義下稱為“樸素的”。

bayes分類的演算法大致如下：

（1）對於屬性值是離散的，並且目標label值也是離散的情況下。分別計算label不同取值的概率，以及樣本在label情況下的概率值，然後將這些概率值相乘最後得到一個概率的乘積，選擇概率乘積最大的那個值對應的label值就為預測的結果。

例如以下：是預測蘋果在給定屬性的情況是甜還是不甜的情況：

color={0,1,2,3} weight={2,3,4};是屬性序列，為離散型。sweet={yes,no}是目標值，也為離散型；

這時我們要預測在color=3,weight=3的情況下的目標值，計算過程如下：

P{y=yes}=2/5=0.4;P{color=3|yes}=1/2=0.5;P{weight=3|yes}=1/2=0.5; 故F{color=3,weight=3}取yesd的概率為 0.4*0.5*0.5=0.1;

P{y=no}=3/5=0.6;P{color=3|no}=1/3 P{weight=3|no}=1/3; 故P{color=3,weight=3}取no為 0.6*1/3*1/3=1/15;

0.1>1/15 所以認為 F{color=3,weight=3}=yes;

(2)對於屬性值是連續的情況，思想和離散是相同的，只是這時候我們計算屬性的概率用的是高斯密度：

這裡的Xk就是樣本的取值，u是樣本所在列的均值，kesi是標準差；

最後程式碼如下：

/*
 * To change this template, choose Tools | Templates
 * and open the template in the editor.
 */
package auxiliary;

import java.util.ArrayList;

/**
 *
 * @author Michael Kong
 */
public class NaiveBayes extends Classifier {

	boolean isClassfication[];
   ArrayList lblClass=new ArrayList();  //儲存目標值的種類
   ArrayListlblCount=new ArrayList();//儲存目標值的個數
   ArrayListlblProba=new ArrayList();//儲存對應的label的概率
   CountProbility countlblPro;
   /*@ClassListBasedLabel是將訓練陣列按照 label的順序來分類儲存*/
   ArrayList>> ClassListBasedLabel=new  ArrayList>> ();
    public NaiveBayes() {
    }
    @Override
    /**
     * @train主要完成求一些概率
     * 1.labels中的不同取值的概率f(Yi);  對應28,29行兩段程式碼
     * 2.將訓練陣列按目標值分類儲存   第37行程式碼

     * */
    public void train(boolean[] isCategory, double[][] features, double[] labels){
    	isClassfication=isCategory;
    	countlblPro=new CountProbility(isCategory,features,labels);
    	countlblPro.getlblClass(lblClass, lblCount, lblProba);  	
    	ArrayList> trainingList=countlblPro.UnionFeaLbl(features, labels); //union the features[][] and labels[]
    	ClassListBasedLabel=countlblPro.getClassListBasedLabel(lblClass, trainingList);
    }
    @Override
    /**3.在Y的條件下，計算Xi的概率 f(Xi/Y)；
     * 4.返回使得Yi*Xi*...概率最大的那個label的取值
     * */
    public double predict(double[] features) {
    	
    	int max_index; //用於記錄使概率取得最大的那個索引
    	int index=0; //這個索引是 標識不同的labels 所對應的概率
    	ArrayList pro_=new ArrayList(); //這個概率陣列是儲存features[] 在不同labels下對應的概率
		for(ArrayList> elements: ClassListBasedLabel)  //依次取不同的label值對應的元祖集合
		{
		 	ArrayList pro=new ArrayList();//存同一個label對應的所有概率，之後其中的元素自乘
			double probility=1.0; //計算概率的乘積
			
			for(int i=0;i element:elements) //依次取labels中的所有元祖
					{
						if(element.get(i).equals(features[i])) //如果這個元祖的第index資料和b相等，那麼就count就加1
							count++;
					}
					if(count==0)
					{
						pro.add(1/(double)(elements.size()+1));
					}
					else
						pro.add(count/(double)elements.size()); //統計完所有之後  計算概率值 並加入
				}
				else
				{

		  			double Sdev;
		    		double Mean;
	    			double probi=1.0;
    				Mean=countlblPro.getMean(elements, i);
    				Sdev=countlblPro.getSdev(elements, i);
    				if(Sdev!=0)
    				{
    					probi*=((1/(Math.sqrt(2*Math.PI)*Sdev))*(Math.exp(-(features[i]-Mean)*(features[i]-Mean)/(2*Sdev*Sdev))));
    	    			pro.add(probi);
    				}
    				else
    					pro.add(1.5);
    				
	        	}
			}
			for(double pi:pro)
				probility*=pi; //將所有概率相乘
			probility*=lblProba.get(index);//最後再乘以一個 Yi
			pro_.add(probility);// 放入pro_ 至此 一個迴圈結束，	
			index++;
		}
		double max_pro=pro_.get(0);
		max_index=0;
		
		
		for(int i=1;i=max_pro)
			{
				max_pro=pro_.get(i);
				max_index=i;
			}	
		}  
		return  lblClass.get(max_index);
    }
    
    
    
    
    public class CountProbility
    {
    	boolean []isCatory;
    	double[][]features;
    	private double[]labels;
    	public CountProbility(boolean[] isCategory, double[][] features, double[] labels)
    	{
    		this.isCatory=isCategory;
    		this.features=features;
    		this.labels=labels;
    	}
    	//獲取label中取值情況
    	public void getlblClass(  ArrayList lblClass,ArrayListlblCount,ArrayListlblProba)
    	{
    		int j=0;
            for(double i:labels)
            {
            	//如果當前的label不存在於lblClass則加入
            	if(!lblClass.contains(i))
            	{
            		lblClass.add(j,i);
            		lblCount.add(j++,1);
            	}
            	else //如果label中已經存在，就將其計數加1
            	{
            		int index=lblClass.indexOf(i); 
            		int count=lblCount.get(index);
            		lblCount.set(index,++count);
            	}
            		
            }
            for(int i=0;i>  UnionFeaLbl(double[][] features, double[] labels)
    	{
    		ArrayList>traingList=new  ArrayList>();
    		for(int i=0;ielements=new ArrayList();
    			for(int j=0;j>> getClassListBasedLabel (ArrayList lblClass,ArrayList>trainingList)
    	{
    		ArrayList>> ClassListBasedLabel=new ArrayList>> () ;
        		for(double num:lblClass)
        		{
    				ArrayList> elements=new ArrayList>();
	    			for(ArrayListelement:trainingList)
	    			{
	    				if(element.get(element.size()-1).equals(num))
	    					elements.add(element);
	    			}
    			ClassListBasedLabel.add(elements);
        		}
    			return ClassListBasedLabel;
    	}
    	public double getMean(ArrayList> elements,int index)
    	{
    		double sum=0.0;
    		double Mean;
    		
    		for(ArrayList element:elements)
    		{
    			sum+=element.get(index);
    			
    		}
    		Mean=sum/(double)elements.size();
    		return  Mean;
    	}
    	public double getSdev(ArrayList> elements,int index)
    	{
    		double dev=0.0;
    		double Mean;
    		Mean=getMean(elements,index);
    		for(ArrayList element:elements)
    		{
    			dev+=Math.pow((element.get(index)-Mean),2);
    		}
    		dev=Math.sqrt(dev/elements.size());
    		return  dev;
    	}
    	
    	
    }
}

Naive Bayes 樸素貝葉斯的JAVA程式碼實現

1.關於貝葉斯分類 bayes 是一種統計學分類方法，它基於貝葉斯定理，它假定一個屬性值對給定類的影響獨立於其它屬性點的值。該假定稱作類條件獨立。做次假定是為了簡化所需計算，並在此意義下稱為“樸素的”。 bayes分類的演算法大致如下：（1）對於屬性值是離散的，並且目

【樸素貝葉斯】實戰樸素貝葉斯_程式碼實現_訓練演算法

說一下Train函式的實現。在上文中，我提到過，樸素貝葉斯也有兩種模型：貝努力模型和多項式模型。小弟第一次實現樸素貝葉斯，就老老實實按照基本原理做了一個貝努力模型；多項式模型也不難，變通一下就行。不廢話了，直接上程式碼了，有點長，不過很容易看懂： bool Naiv

樸素貝葉斯python程式碼實現（西瓜書）

樸素貝葉斯python程式碼實現（西瓜書）摘要：樸素貝葉斯也是機器學習中一種非常常見的分類方法，對於二分類問題，並且資料集特徵為離散型屬性的時候，使用起來非常的方便。原理簡單，訓練效率高，擬合效果好。樸素貝葉斯貝葉斯公式：樸素貝葉斯之所以稱這為樸素，是因為假設了各個特徵是相互獨立的，因此假定下

【機器學習實戰—第4章：基於概率論的分類方法：樸素貝葉斯】程式碼報錯（python3）

1、報錯：UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xae in position 199: illegal multibyte sequence 原因：這是檔案編碼的問題，檔案中有非法的多位元組字元。解決辦法：開啟Ch04\

機器學習實戰之樸素貝葉斯_程式碼註釋

#-*- coding: UTF-8 -*- from numpy import * def loadDataSet():#建立包含文件的訓練集和各文件對應的標籤列表 postinglist = [['my','dog','has','flea','problems',

樸素貝葉斯分類MATLAB實現

原理：首先將資料分成訓練集和測試集，計算測試集中每個類的先驗概率（就是每個類在訓練集中佔的比例），然後為樣本的每個屬性估計條件概率（就是屬性值相同的樣本在每一類中佔的比例）為了方便理解請看下面的例子：（直接用的周志華機器學習那本書上的資料）現在有一個西瓜，它的屬性值如下，讓判斷

樸素貝葉斯（Python實現）

這篇文章是《機器學習實戰》（Machine Learning in Action）第四章基於概率論的分類方法：樸素貝葉斯演算法的Python實現程式碼。 1 參考連結機器學習實戰 2 實現程式碼 from numpy import * import feedpa

[西瓜書]樸素貝葉斯--numpy + python實現

貝葉斯定理現在假設有兩個事件分別為A和B，貝葉斯定理則可以描述在事件A發生的前提下B發生的概率以及在事件B發生的前提下事件A發生的概率之間的關係。有點繞？畫個圖就能理解了～現在假設事件A發生的概率為 P(A) P(A) 事件B發生的概率為

機器學習——樸素貝葉斯演算法Python實現

簡介這裡參考《統計學習方法》李航編進行學習總結。詳細演算法介紹參見書籍，這裡只說明關鍵內容。即條件獨立下：p{X=x|Y=y}=p{X1=x1|Y=y} * p{X2=x2|Y=y} *...* p{Xn=xn|Y=y} （4.4）等價於p{Y=ck|X=x

基於樸素貝葉斯分類演算法實現垃圾郵箱分類

貝葉斯決策理論在機器學習中，樸素貝葉斯是基於貝葉斯決策的一種簡單形式,下面給出貝葉斯的基本公式，也是最重要的公式：其中X是一個m*n的矩陣，m為他的樣本數，n為特徵的個數，即我們要求的是：在已知的樣本情況下的條件概率。 )表示

樸素貝葉斯演算法python實現

樸素貝葉斯是一種十分簡單的分類演算法，稱其樸素是因為其思想基礎的簡單性，就文字分類而言，他認為詞袋中的兩兩詞之間的關係是相互獨立的，即一個物件的特徵向量中的每個維度都是互相獨立的。這是樸素貝葉斯理論的思想基礎。樸素貝葉斯分類的正式定義：設x={}為一個待分類項，而每個a為x的一個特徵屬性有類別集合C={

樸素貝葉斯演算法 Python實現

本程式碼實現了樸素貝葉斯分類器（假設了條件獨立的版本），常用於垃圾郵件分類，進行了拉普拉斯平滑關於樸素貝葉斯演算法原理可以參考部落格中原理部分的博文。#!/usr/bin/python # -*- coding: utf-8 -*- from math import log

樸素貝葉斯的python實現（針對演算法預測類不針對文字）

首先，感謝Chai_zheng博主提供的程式碼思路，本文程式碼基於該博主思路所編寫！！！感謝這個開源的時代。一、貝葉斯原理: 作為一名研究（雖然是菜鳥級別的，哈哈），那還是用學習貝葉斯的人員來自稱吧，還是要吹一下貝葉斯的幾大優點的。貝葉斯網路是一種概率圖形模型，廣泛應用

4.樸素貝葉斯分類器實現－matlab

實現樸素貝葉斯分類器，並且根據李航《統計機器學習》第四章提供的資料訓練與測試，結果與書中一致分別實現了樸素貝葉斯以及帶有laplace平滑的樸素貝葉斯 %書中例題實現樸素貝葉斯 %特徵1的取值集合 A1=[1;2;3]; %特徵2的取值集合 A2=[4;5;6];%S M L AValue

貝葉斯2-樸素貝葉斯的python實現

OK，前文http://blog.csdn.net/lvhao92/article/details/50775860提到了一些圍繞貝葉斯的基礎概念，極大似然等等。這篇就是介紹大名鼎鼎的樸素貝葉斯分類器寫文章之前百度了一下貝葉斯，發現大多數文章提到貝葉斯就是樸素貝葉斯。其實

機器學習之樸素貝葉斯分類器實現

問題如下比如：有如下的需求，要判斷某一句英語是不是侮辱性語句分析思路對於機器來說，可能不容易分辨出某一句話是不是侮辱性的句子，但是機器可以機械的進行分析，何為機械的進行分析，就是判斷某一個句子中侮辱性的單詞是不是達到一定數量（當然這

用起來不太樸素的樸素貝葉斯及其Python實現

作為一個聽起來非常Naive的分類器，Naive Bayes Classifier使用了“屬性條件獨立性假設”，也就是假設所有屬性相互獨立。分類器的目的，是對任一測試樣本x,利用貝葉斯定理求出後驗概率最大的輸出類。假設y一共可以取N個標籤，yc代表第c類。那麼

樸素貝葉斯分類器實現成績等級預測

最近在學習機器學習相關的演算法，希望能通過筆記和做的小的Demo來鞏固一下所學的知識和演算法。今天來講解一下樸素貝葉斯分類器，並利用樸素貝葉斯做一個簡單的成績等級預測。貝葉斯決策論：在所有相關概率都已知的理想情形下，貝葉斯決策論考慮如何基於這些概

樸素貝葉斯原理及實現

一、理論基礎（一）樸素貝葉斯定理簡單的說：一個樣本屬於某個類別的概率是：這個類別出現的概率 * 已知這個類別出現的情況下各個屬性出現的概率的乘積根據貝葉斯定理，事件X發生時，類別Ci發生的後驗概

樸素貝葉斯分類器的應用 Naive Bayes classifier

upload dia get 等號分布 eat 實現維基 5.5 一、病人分類的例子讓我從一個例子開始講起，你會看到貝葉斯分類器很好懂，一點都不難。某個醫院早上收了六個門診病人，如下表。　　癥狀　　職業　　　疾病　　打噴嚏　護士　　　感冒　　打噴嚏

Naive Bayes 樸素貝葉斯的JAVA程式碼實現

相關推薦