python中如何使用樸素貝葉斯演算法

阿新 • • 發佈：2019-02-12

這裡再重複一下標題為什麼是"使用"而不是"實現"：

首先，專業人士提供的演算法比我們自己寫的演算法無論是效率還是正確率上都要高。

其次，對於數學不好的人來說，為了實現演算法而去研究一堆公式是很痛苦的事情。

再次，除非他人提供的演算法滿足不了自己的需求，否則沒必要"重複造輪子"。

下面言歸正傳，不瞭解貝葉斯演算法的可以去查一下相關資料，這裡只是簡單介紹一下：

1.貝葉斯公式：

P(A|B)=P(AB)/P(B)

2.貝葉斯推斷：

P(A|B)=P(A)×P(B|A)/P(B)

用文字表述：

後驗概率=先驗概率×相似度/標準化常量

而貝葉斯演算法要解決的問題就是如何求出相似度，即：P(B|A)的值

3. 在scikit-learn包中提供了三種常用的樸素貝葉斯演算法，下面依次說明：

1）高斯樸素貝葉斯：假設屬性/特徵是服從正態分佈的(如下圖)，主要應用於數值型特徵。

使用scikit-learn包中自帶的資料，程式碼及說明如下：

>>>from 
 sklearn import datasets   ##匯入包中的資料
>>> iris=datasets.load_iris()     ##載入資料
>>> iris.feature_names            ##顯示特徵名字
    ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
>>> iris.data                     ##顯示資料
    array([[ 5.1, 3.5, 1.4, 0.2],[ 4.9, 3. , 1.4, 0.2],[ 4.7, 3.2, 1.3, 0.2]............

>>> iris.data.size                ##資料大小 ---600個
>>> iris.target_names             ##顯示分類的名字 
    array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

>>> from sklearn.naive_bayes import GaussianNB  ##匯入高斯樸素貝葉斯演算法
>>> clf = GaussianNB()                          ##給演算法賦一個變數，主要是為了方便使用
>>> clf.fit(iris.data, iris.target)             ##開始分類。對於量特別大的樣本，可以使用函式partial_fit分類，避免一次載入過多資料到記憶體

>>> clf.predict(iris.data[0].reshape(1,-1)) ##驗證分類。標紅部分特別說明：因為predict的引數是陣列，data[0]是列表，所以需要轉換一下
array([0])

>>> data=np.array([6,4,6,2]) ##驗證分類
>>> clf.predict(data.reshape(1,-1))
array([2])

這裡涉及到一個問題：如何判斷資料符合正態分佈？ R語言裡面有相關函式判斷，或者直接繪圖也可以看出來，但是都是P(x,y)這種可以在座標系裡面直接

畫出來的情況，而例子中的資料如何確定，目前還沒有搞明白，這部分後續會補上。

2）多項式分佈樸素貝葉斯：常用於文字分類，特徵是單詞，值是單詞出現的次數。

##示例來在官方文件，詳細說明見第一個例子
>>> import numpy as np
>>> X = np.random.randint(5, size=(6, 100))    ##返回隨機整數值：範圍[0,5) 大小6*100 6行100列
>>> y = np.array([1, 2, 3, 4, 5, 6])
>>> from sklearn.naive_bayes import MultinomialNB
>>> clf = MultinomialNB()
>>> clf.fit(X, y)
MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)  
>>> print(clf.predict(X[2]))
[3]

3）伯努力樸素貝葉斯：每個特徵都是是布林型，得出的結果是0或1，即出現沒出現

##示例來在官方文件，詳細說明見第一個例子

>>> import numpy as np
>>> X = np.random.randint(2, size=(6, 100))
>>> Y = np.array([1, 2, 3, 4, 4, 5])
>>> from sklearn.naive_bayes import BernoulliNB
>>> clf = BernoulliNB()
>>> clf.fit(X, Y)
BernoulliNB(alpha=1.0, binarize=0.0, class_prior=None, fit_prior=True)  
>>> print(clf.predict(X[2]))
[3]

補充說明：此文還不完善，示例一中也有部分說明需要寫，最近事情較多，後續會逐漸完善。

Python實現樸素貝葉斯演算法 --- 過濾垃圾郵件

# -*- coding:utf-8 -*- import numpy as np import random import re __author__ = 'yangxin' """ 過濾垃圾郵件 """ class FilterSpam(object): #

Python--基於樸素貝葉斯演算法的情感分類

環境 win8, python3.7, jupyter notebook 正文什麼是情感分析?(以下引用百度百科定義) 情感分析（Sentiment analysis），又稱傾向性分析，意見抽取（Opinion extraction），意見挖掘（Opinion mining），情感挖掘（Sentiment

python中樸素貝葉斯程式碼的實現

程式碼主要參考機器學習實戰那本書，發現最近老外的書確實比中國人寫的好，由淺入深，程式碼通俗易懂，不多說上程式碼： #encoding:utf-8 ''' Created on 2015年9月6日 @author: ZHOUMEIXU204 樸素貝葉斯實現過程 '''

Python實現樸素貝葉斯演算法 --- 遮蔽社群留言板的侮辱性言論

# -*- coding:utf-8 -*- import numpy as np __author__ = 'yangxin' """ 貝葉斯公式 p(xy)=p(x|y)p(y)=p(y|x)p(x) p(x|y)=p(y|x)p(x)/p(y) """ """ 遮蔽社

python中如何使用樸素貝葉斯演算法

這裡再重複一下標題為什麼是"使用"而不是"實現"：首先，專業人士提供的演算法比我們自己寫的演算法無論是效率還是正確率上都要高。其次，對於數學不好的人來說，為了實現演算法而去研究一堆公式是很痛苦

小白python學習——機器學習篇——樸素貝葉斯演算法

一.大概思路： 1.找出資料集合，所有一個單詞的集合，不重複，各個文件。 2.把每個文件換成0,1模型，出現的是1，就可以得到矩陣長度一樣的各個文件。 3.計算出3個概率，一是侮辱性的文件概率，二是侮辱性文件中各個詞出現的概率，三是非侮辱性文件中各個詞出現的概率。 4.二、三計算方法

機器學習——樸素貝葉斯演算法Python實現

簡介這裡參考《統計學習方法》李航編進行學習總結。詳細演算法介紹參見書籍，這裡只說明關鍵內容。即條件獨立下：p{X=x|Y=y}=p{X1=x1|Y=y} * p{X2=x2|Y=y} *...* p{Xn=xn|Y=y} （4.4）等價於p{Y=ck|X=x

樸素貝葉斯演算法的python實現

import numpy as np import re #詞表到向量的轉換函式 def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please']

樸素貝葉斯演算法python實現

樸素貝葉斯是一種十分簡單的分類演算法，稱其樸素是因為其思想基礎的簡單性，就文字分類而言，他認為詞袋中的兩兩詞之間的關係是相互獨立的，即一個物件的特徵向量中的每個維度都是互相獨立的。這是樸素貝葉斯理論的思想基礎。樸素貝葉斯分類的正式定義：設x={}為一個待分類項，而每個a為x的一個特徵屬性有類別集合C={

樸素貝葉斯演算法之python實現　統計學習方法例4.2實戰

　本人在自學李航老師的統計學習方法，在學習樸素貝葉斯章節時，其中概念非常好理解，但是準備想把課本中的例題實戰一下時卻犯了難，有點無從下手的感覺，主要是因為怎麼去合理的去寫，提高程式碼的適應性以及重複利用率。　在網上找了蠻多部落格，大部分都是是判斷情感詞等，其中有篇部落

樸素貝葉斯演算法(Naive Bayes)演算法的python實現含原始碼

演算法原理不在贅述，請參考：將程式碼儲存為.py格式，預設使用的資料是程式碼檔案所在目錄下data目錄下的 bayes_train.txt 和bayes_test.txt 兩個檔案分別作為訓練樣例和測試樣例。以上引數可以在原始碼中修改，也可以使用命令列引數傳入，參考以

樸素貝葉斯演算法及Python的簡單實現

貝葉斯演算法起源於古典數學理論，是一種分類演算法的總稱。它以貝葉斯定理為基礎，假設某待分類的樣本滿足某種概率分佈，並且可以根據已觀察到的樣本資料對該樣本進行概率計算，以得出最優的分類決策。通過計算已觀察到的樣本資料估計某待分類樣本的先驗概率，利用貝葉斯公式計算出其後

樸素貝葉斯演算法 Python實現

本程式碼實現了樸素貝葉斯分類器（假設了條件獨立的版本），常用於垃圾郵件分類，進行了拉普拉斯平滑關於樸素貝葉斯演算法原理可以參考部落格中原理部分的博文。#!/usr/bin/python # -*- coding: utf-8 -*- from math import log

用Python Scikit-learn 實現機器學習十大演算法--樸素貝葉斯演算法（文末有程式碼）

1，前言很久不發文章，主要是Copy別人的總感覺有些不爽，所以整理些乾貨，希望相互學習吧。不囉嗦，進入主題吧，本文主要時說的為樸素貝葉斯分類演算法。與邏輯迴歸，決策樹一樣，是較為廣泛使用的有監督分類演算法，簡單且易於理解（號稱十大資料探勘演算法中最簡單的演算法）。但

6步學會樸素貝葉斯演算法（包含python語言和R語言原始碼）

摘要假設你遇到下面這種情況：你正在研究分類問題，並且你已經生成了你的假設集，建立了特徵值，討論了變數的重要性。在一個小時內，利益相關者希望看到模型的第一個切割。你會怎麼做？你有數以千計個數據點，只有少數變數在你的訓練集裡面。在這種情況下，

樸素貝葉斯演算法的程式碼例項實現（python）

本文由本人原創，僅作為自己的學習記錄資料：假設下面是課程資料，課程資料分為，價格A，課時B，銷量C 價格A 課時B 銷量C 低多高高中高低少高低中低中中

Python機器學習筆記：樸素貝葉斯演算法

　　樸素貝葉斯是經典的機器學習演算法之一，也是為數不多的基於概率論的分類演算法。對於大多數的分類演算法，在所有的機器學習分類演算法中，樸素貝葉斯和其他絕大多數的分類演算法都不同。比如決策樹，KNN，邏輯迴歸，支援向量機等，他們都是判別方法，也就是直接學習出特徵輸出Y和特徵X之間的關係，要麼是決策函式，要麼是條

樸素貝葉斯演算法原理

（作者：陳玓玏） 1. 損失函式假設我們使用0-1損失函式，函式表示式如下： Y Y Y為真實

樸素貝葉斯演算法應用——垃圾簡訊分類

理解貝葉斯公式其實就只要掌握：1、條件概率的定義；2、乘法原理 P (

Python 實現樸素貝葉斯 MNIST資料集

Python實現樸素貝葉斯演算法樸素貝葉斯是機器學習的一種演算法，之所以成為樸素，是因為它的想法“簡單”，簡單地認為樣本中所有的特徵都無關，即P(AB) = P(A)P(B)。所以，有 P(y|xi) = P(y)P(x0 = xi0|y)P(x1 = xi1|y)P(x2 = x

python中如何使用樸素貝葉斯演算法

相關推薦