【機器學習實戰】網格搜尋--貝葉斯新聞文字分類器調優

阿新 • • 發佈：2019-01-06

#對文字分類的樸素貝葉斯模型的超引數組合進行網格搜尋
#從sklearn.datasets中匯入20類新聞文字抓取器
from sklearn.datasets import fetch_20newsgroups
import numpy as np

#抓取新聞資料
news=fetch_20newsgroups(subset='all')

#資料集分割
from sklearn.cross_validation import train_test_split
X_train,X_test,y_train,y_test=train_test_split(news.data[:3000],
        news.target[:3000 
],test_size=0.25,random_state=33)
#SVM
from sklearn.svm import SVC
#匯入TfidVectorizer文字抽取器
from sklearn.feature_extraction.text import TfidfVectorizer

#匯入Pipeline
from sklearn.pipeline import Pipeline
#使用pipeline簡化系統搭建流程，將文字抽取與分類模型串聯
clf=Pipeline([('vect',TfidfVectorizer(stop_words='english',analyzer='word' 
)),('svc',SVC())])

#超引數
parameters={'svc__gamma':np.logspace(-2,1,4),'svc__C':np.logspace(-1,1,3)}
#網格搜尋模型GridSearchCV
from sklearn.model_selection import GridSearchCV

#初始化單執行緒網格搜尋
gs=GridSearchCV(clf,parameters,verbose=2,refit=True,cv=3)

#初始化配置並行網格搜尋，n_jobs=-1代表使用該計算機全部的CPU
gs=GridSearchCV(clf,parameters,verbose=2 
,refit=True,cv=3,n_jobs=-1)

time_=gs.fit(X_train,y_train)
gs.best_params_,gs.best_score_
#輸出最佳模型在測試集上的準確性
print(gs.score(X_test,y_test))
#0.822666666667

單執行緒
這裡寫圖片描述

多執行緒，並行
這裡寫圖片描述

【機器學習實戰】網格搜尋--貝葉斯新聞文字分類器調優

#對文字分類的樸素貝葉斯模型的超引數組合進行網格搜尋 #從sklearn.datasets中匯入20類新聞文字抓取器 from sklearn.datasets import fetch_20newsgroups import numpy as np #抓取新

【機器學習實戰】樸素貝葉斯

一.概述二.理論基礎三.文件分類四.垃圾郵件過濾五.從個人廣告中獲取區域傾向六.程式碼問題總結七.總結一、概述貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。本章首先介紹貝葉斯分類演算法的基礎——

【機器學習實戰—第4章：基於概率論的分類方法：樸素貝葉斯】程式碼報錯（python3）

1、報錯：UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xae in position 199: illegal multibyte sequence 原因：這是檔案編碼的問題，檔案中有非法的多位元組字元。解決辦法：開啟Ch04\

【機器學習實戰】第13章利用 PCA 來簡化數據

light nan 文本 com axis 均值 ... cati 二維空間第13章利用 PCA 來簡化數據降維技術場景我們正通過電視觀看體育比賽，在電視的顯示器上有一個球。顯示器大概包含了100萬像素點，而球則可能是由較少的像素點組成，例如說一千個像素

【機器學習實戰】FP-growth演算法詳解

Here is code 背景 apriori演算法需要多次掃描資料，I/O 大大降低了時間效率 1. fp-tree資料結構 1> 項頭表記錄所有的1項頻繁集出現的次數，並降序排列 2> fp tree 根據項頭表，構建fp樹 3>

【機器學習實戰】knn演算法手寫

首先初始化資料 def createDataSet(): group = np.array([[1.0, 1.1], [1.0, 1.0], [0.0,0.0], [0.0,0.1]]) labels = ['A', 'A', 'B', 'B']

【機器學習實戰】支援向量機----分類庫和簡單訓練mnist

前面已經對mnist資料集進行了讀取，現在我們可以直接使用sklearn.svm模組中的演算法庫對mnist資料集進行訓練。【svm模組】演算法庫： sklearn.svm模組中提供了這些庫：大概分成這幾類(除了svm_l1_min_c

【機器學習實戰】第2章 K-近鄰演算法(k-NearestNeighbor，KNN)

第2章 k-近鄰演算法 <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script>

【機器學習實戰】Logistic迴歸總結與思考

【機器學習實戰】Logistic迴歸全部程式均是依照《機器學習實戰》書寫，然後進行了一些修改（順便鞏固python） Logistic原理簡單解釋作者在書中這樣描述Logistic迴歸根據現有資料對分類邊界線建立迴歸公式，以此進行分類 --《機器學習實戰》P73 這本書對於理論的東

【機器學習實戰】第6章支援向量機（Support Vector Machine / SVM）

第6章支援向量機 <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script>

【機器學習實戰】第3章決策樹

第3章決策樹 <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script> 決策

【機器學習實戰】第1章機器學習基礎

第1章機器學習基礎機器學習概述機器學習就是把無序的資料轉換成有用的資訊。獲取海量的資料從海量資料中獲取有用的資訊我們會利用計算機來彰顯資料背後的真實含義，這才是機器學習的意義。機器學習場景例如：

【機器學習實戰】—KNN分類演算法

一、KNN演算法概述 kNN分類演算法本身簡單有效，既可以分類又可以進行迴歸。核心原理：已知樣本資料集的每一個數據的特徵和所屬的分類，將新資料的特徵與樣本資料進行比較，找到最相似（最近鄰）的K（k

【機器學習實戰】11.使用Apriori演算法進行關聯分析——python3程式

之前費心費力寫了一篇，結果沒有儲存。這一篇主要放上書本上的程式分析及執行結果。關聯分析主要分為：頻繁項集生成和關聯規則生成1.頻繁項集生成——Apriori演算法程式碼：def createC1(dataSet): ''' 構建大小為1的所有候

【機器學習實戰】第10章 K-Means（K-均值）聚類演算法

第 10章K-Means（K-均值）聚類演算法 K-Means 演算法聚類是一種無監督的學習, 它將相似的物件歸到一個簇中, 將不相似物件歸到不同簇中. 相似這一概念取決於所選擇的相似度計算方法. K-Means 是發現給定資料集的 K 個簇的聚類演算法, 之

【機器學習實戰】5.Logistic迴歸（1）

程式：# -*- coding: utf-8 -*- """ Created on Wed Mar 14 14:15:43 2018 @author: ### """ import numpy as np import matplotlib.pyplot as plt d

【機器學習實戰】第6章支援向量機

def smoSimple(dataMatIn, classLabels, C, toler, maxIter): """smoSimple Args: dataMatIn 特徵集合 classLabels 類別標籤 C 鬆弛變數

【機器學習實戰】-Logistic 迴歸

一、邏輯迴歸介紹 Logistic 迴歸，雖然名字叫邏輯迴歸，但是它並不是一個迴歸模型，而是分類模型。利用邏輯迴歸進行分類的主要思想是：根據現有資料對分類邊界線建立迴歸公式。介紹它的真正原理之前，我們要介紹一下回歸的概念，那麼什麼是迴歸呢？假設我們現在有一堆

【機器學習實戰】邏輯迴歸----sklearn庫中的LogisticRegression類

LogisticRegression類邏輯迴歸的基本思想在前面已經寫過，就不再贅述。主要是為了瞭解並使用scikit-learn中邏輯迴歸類庫，在實踐前先整理一下里面的引數、屬性和方法。我們使用 ##載入線性模型 from sklearn impo

【機器學習實戰】製作五子棋AI之四：基本規則的建立【2】

在上一次，我們建立了棋盤的狀態類GameStatus，用來存取和顯示每一步走完後的棋盤上黑白子的狀態。想一想，為了像真實的五子棋遊戲一樣執行，還缺了遊戲勝負的判定，那麼我們定義一個函式對遊戲勝負進行判斷。 def check_win(black,white

【機器學習實戰】網格搜尋--貝葉斯新聞文字分類器調優

相關推薦