貝葉斯公式實戰

阿新 • • 發佈：2021-01-06

技術標籤：ML

from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB


def nb_news():
    """
    用貝葉斯演算法，對新聞進行分類
    :return:
    """ 

    # 1)獲取資料
    news = fetch_20newsgroups(subset="all")
    # print(news)
    # 2)劃分資料集
    x_train, x_test, y_train, y_test = train_test_split(news.data, news.target)

    # 3)特徵工程：文字的特徵抽取tfidf
    tf = TfidfVectorizer()
    x_train = tf.fit_transform(x_train)
    x_test = tf.transform(x_test) 


    # 4）貝葉斯演算法預估器流程
    estimator = MultinomialNB()
    estimator.fit(x_train, y_train)

    # 5）模型的評估
    # 方法一：直接比較
    y_predict = estimator.predict(x_test)
    print("預測值和真實值對比：\n", y_test == y_predict)

    # 方法二：計算準確率
    score = estimator.score(x_test, y_test)
    print("準確率為:\n" 
, score)
    return None



# def nbcls():
#     """
#     樸素貝葉斯對新聞資料集進行預測
#     :return:
#     """
#     # 獲取新聞的資料，20個類別
#     news = fetch_20newsgroups(subset='all')
#
#     # 進行資料集分割
#     x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.3)
#
#     # 對於文字資料，進行特徵抽取
#     tf = TfidfVectorizer()
#
#     x_train = tf.fit_transform(x_train)
#     # 這裡打印出來的列表是：訓練集當中的所有不同詞的組成的一個列表
#     print(tf.get_feature_names())
#     # print(x_train.toarray())
#
#     # 不能呼叫fit_transform
#     x_test = tf.transform(x_test)
#
#     # estimator估計器流程
#     mlb = MultinomialNB(alpha=1.0)
#
#     mlb.fit(x_train, y_train)
#
#     # 進行預測
#     y_predict = mlb.predict(x_test)
#
#     print("預測每篇文章的類別：", y_predict[:100])
#     print("真實類別為：", y_test[:100])
#
#     print("預測準確率為：", mlb.score(x_test, y_test))
#
#     return None


if __name__ == "__main__":
    nb_news()

貝葉斯公式實戰

技術標籤：ML from sklearn.datasets import fetch_20newsgroups from sklearn.model_selection import train_test_split

樸素貝葉斯分類-實戰篇-如何進行文字分類

微信公眾號：碼農充電站pro 個人主頁：https://codeshellme.github.io 上篇介紹了樸素貝葉斯的原理，本篇來介紹如何用樸素貝葉斯解決實際問題。

白話貝葉斯公式_關於tfidf及多項式/伯努利貝葉斯用於文字分類的詳細講解（完整示例程式碼+手工推導）...

技術標籤：白話貝葉斯公式關於tfidf以及文字分類中貝葉斯模型的介紹，網路上有很多。然而，大部分文章存在著講解片面的情況，且忽視了幾個非常容易產生誤解的地方。例如，tfidf的取值一般不是非負整數，其對應

貝葉斯公式經典例題

貝葉斯公式關於發病率的一個例題先看原題: 某地區居民的肝癌發病率為0.0004 ,現用甲胎蛋白法進行普查。醫學研究表明,化驗結是有錯檢的可能的。已知患有肝癌的人其化驗結果99%呈陽性, 而沒患肝癌的人其化驗結果99

概率貝葉斯公式先驗概率後驗概率

先驗概率，後驗概率，似然概率，條件概率，貝葉斯，最大似然總是搞混，這裡總結一下常規的叫法：

機器學習：樸素貝葉斯分類器實現二分類（伯努利型）程式碼+專案實戰

一、樸素貝葉斯分類器的構建 import numpy as np class BernoulliNavieBayes: def __init__(self, alpha=1.):

機器學習實戰---樸素貝葉斯演算法

一：準備資料（一）載入原始資料 import numpy as np def loadDataSet(): postingList=[[\'my\', \'dog\', \'has\', \'flea\', \'problems\', \'help\', \'please\'],#每一行詞表，代表一個文件