CountVectorizer與TfidfVectorizer 對文字特徵的特徵抽取

阿新 • • 發佈：2018-12-17

對新聞文字資料使用CountVectorizer與TfidfVectorizer 抽取特徵，使用樸素貝葉斯進行分類。

# -*- coding:utf-8 -*-
if __name__ == '__main__':
    print "hello"
    # 從sklearn.datasets裡匯入20類新聞文字資料抓取器。
    from sklearn.datasets import fetch_20newsgroups
    # 從網際網路上即時下載新聞樣本,subset='all'引數代表下載全部近2萬條文字儲存在變數news中。
    news = fetch_20newsgroups(subset='all',download_if_missing=False)
    # news = fetch_20newsgroups(subset='all')

    # 從sklearn.cross_validation匯入train_test_split模組用於分割資料集。
    from sklearn.model_selection import train_test_split
    # 對news中的資料data進行分割，25%的文字用作測試集；75%作為訓練集。
    X_train, X_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25, random_state=33)

    # 從sklearn.feature_extraction.text裡匯入CountVectorizer
    from sklearn.feature_extraction.text import CountVectorizer
    # 採用預設的配置對CountVectorizer進行初始化（預設配置不去除英文停用詞），並且賦值給變數count_vec。
    count_vec = CountVectorizer()

    # 只使用詞頻統計的方式將原始訓練和測試文字轉化為特徵向量。
    X_count_train = count_vec.fit_transform(X_train)
    X_count_test = count_vec.transform(X_test)

    # 從sklearn.naive_bayes裡匯入樸素貝葉斯分類器。
    from sklearn.naive_bayes import MultinomialNB
    # 使用預設的配置對分類器進行初始化。先驗概率假設為多項式
    mnb_count = MultinomialNB()
    # 使用樸素貝葉斯分類器，對CountVectorizer（不去除停用詞）後的訓練樣本進行引數學習。
    mnb_count.fit(X_count_train, y_train)

    # 輸出模型準確性結果。
    print 'The accuracy of classifying 20newsgroups using Naive Bayes (CountVectorizer without filtering stopwords):', mnb_count.score(X_count_test, y_test)
    # 將分類預測的結果儲存在變數y_count_predict中。
    y_count_predict = mnb_count.predict(X_count_test)
    # 從sklearn.metrics 匯入 classification_report。
    from sklearn.metrics import classification_report
    # 輸出更加詳細的其他評價分類效能的指標。
    print classification_report(y_test, y_count_predict, target_names = news.target_names)



    # 從sklearn.feature_extraction.text裡分別匯入TfidfVectorizer。
    from sklearn.feature_extraction.text import TfidfVectorizer

    # 採用預設的配置對TfidfVectorizer進行初始化（預設配置不去除英文停用詞），並且賦值給變數tfidf_vec。
    tfidf_vec = TfidfVectorizer()

    # 使用tfidf的方式，將原始訓練和測試文字轉化為特徵向量。
    X_tfidf_train = tfidf_vec.fit_transform(X_train)
    X_tfidf_test = tfidf_vec.transform(X_test)

    # 依然使用預設配置的樸素貝葉斯分類器，在相同的訓練和測試資料上，對新的特徵量化方式進行效能評估。
    mnb_tfidf = MultinomialNB()
    mnb_tfidf.fit(X_tfidf_train, y_train)
    print 'The accuracy of classifying 20newsgroups with Naive Bayes (TfidfVectorizer without filtering stopwords):', mnb_tfidf.score(
        X_tfidf_test, y_test)
    y_tfidf_predict = mnb_tfidf.predict(X_tfidf_test)
    print classification_report(y_test, y_tfidf_predict, target_names=news.target_names)

CountVectorizer與TfidfVectorizer 對文字特徵的特徵抽取

對新聞文字資料使用CountVectorizer與TfidfVectorizer 抽取特徵，使用樸素貝葉斯進行分類。 # -*- coding:utf-8 -*- if __name__ == '__main__': print "hello" # 從sklearn.

如何對文字提取特徵

問題來源做文字分類這樣的問題，需要從大量語料中提取特徵，並將這些文字特徵變換為數值特徵。假設我們有下面3個樣本，怎麼將他們轉換為數值特徵呢？樣本文字 1 God is love 2 OpenGL on the

機器學習筆記（四）Scikit-learn CountVectorizer 與 TfidfVectorizer

Scikit-learn CountVectorizer 與 TfidfVectorizer 在文字分類問題中，我們通常進行特徵提取，這時，我們需要利用到要介紹的工具，或者其他工具。文字的特徵提取特別重要，體現這個系統做的好壞，分類的準確性，文字的特徵需要自己

對文字抽取詞袋模型特徵

from sklearn.feature_extraction.text import CountVectorizer vec = CountVectorizer( analyzer='word',

sklearn基礎（一）文字特徵提取函式CountVectorizer()和TfidfVectorizer()

CountVectorizer()函式 CountVectorizer()函式只考慮每個單詞出現的頻率；然後構成一個特徵矩陣，每一行表示一個訓練文字的詞頻統計結果。其思想是，先根據所有訓練文字，不考慮其出現順序，只將訓練文字中每個出現過的詞彙單獨視為一列特徵，構成一個詞彙表(vocabulary

sklearn文字特徵提取CountVectorizer 和 TfidfVectorizer

fromsklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer1. CountVectorizervectorizer=CountVectorizer(analyzer = "word",

使用TfidfVectorizer並且不去掉停用詞的條件下，對文字特徵進行量化的樸素貝葉斯分類效能測試

from sklearn.datasets import fetch_20newsgroups news = fetch_20newsgroups() from sklearn.model_selection import train_test_split x_train

15.【進階】特徵提升之特徵抽取--CountVectorizer和TfidfVectorizer

#學習目標1:使用CountVectorizer和TfidfVectorizer對非結構化的符號化資料(如一系列字串)進行特徵抽取和向量化 from sklearn.datasets import fetch_20newsgroups #從網際網路上即時下載新

kaldi語音特徵預處理-mfcc特徵與標籤對齊（一）

學習kaldi已經接近兩個月了，終於將kaldi中語音的特徵資料提取出來，對於其分幀的標籤進行對齊，即將輸入到TensorFlow搭建的模型中，下面詳細的講解一下如何提取語音的特徵以及對音素標籤進行對齊，提取語音MFCC+delta+deltas的39維度特徵在上將部落格

文字分類——特徵選擇概述

內容提要特徵選擇概述常見模型文件頻率(DF) 卡方校驗(CHI) 資訊增益(IG) 互資訊(MI) 特徵選擇概述在向量空間模型中，文字可以選擇字、片語、短語、甚至“概念”等多種元素表

自定義view，繪製階段進度progressBar，階段與圖片和文字對齊

沒用seekbar或者progressbar原生控制元件，通過繪製實現。只講下有用的思想，無關屬性不解釋，也不用看。主要看onDraw方法程式碼：繪製背景線，canvas.drawRect線繪製了第一條線，因為需要漸變，可以看到canvas.drawPath是從第

C#對文字的寫入與讀取操作

C#對文字的寫入與讀取操作。示例：使用txt文字模仿日誌功能的寫入與讀取操作。 1、寫入操作 /// <summary> /// 寫入日誌 /// </summary> public static void WriteLog(string message)

人機文字分類特徵構造——主題分佈

上一篇部落格是關於發現機器所寫內容中語序調換的問題，這一篇部落格主要講如何發現文字內容中是否存在多個主題。對於模型的構建普遍使用的是gensim的LDA模型，而在這裡我們使用了百度的開源工具Familia，下面將進行介紹~ 關於Familia Familia 開源專案包含文件主題

人機文字分類特徵構造——困惑度計算

最近在2018smp的一個比賽中鍛鍊了一下，該任務為文字分類，重點在於辨別人類作者和機器所寫文章的不同，在一番仔細斟酌之後發現兩者之間的區別有以下3點：（1）語序機器所寫的可能想表達的是一樣的說法，是基於文字規則對抽取詞彙的排列，但是結果呈現在詞序的排序上卻會出現一些偏差，舉個栗

深度學習與計算機視覺(PB-03)-特徵提取

從這節開始，我們將討論關於遷移學習的內容，即用預先訓練好的模型（往往是在大型資料上訓練得到的）對新的資料進行學習. 首先，從傳統的機器學習場景出發，即考慮兩個分類任務：第一個任務是訓練一個卷積神經網路來識別影象中的狗和貓。第二個任務是訓練一個卷積神經網路識別三

文字分類特徵提取之Word2Vec

分類問題是人類所面臨的一個非常重要且具有普遍意義的問題，我們生活中的很多問題歸根到底都是分類問題。文字分類就是根據文字內容將其分到合適的類別，它是自然語言處理的一個十分重要的問題。文字分類主要應用於資訊檢索，機器翻譯，自動文摘，資訊過濾，郵件分類等任務。文字分類技

【8】caffe的python介面學習：caffemodel中的引數及特徵的抽取

如果用公式 y=f(wx+b) 來表示整個運算過程的話，那麼w和b就是我們需要訓練的東西，w稱為權值，在cnn中也可以叫做卷積核（filter），b是偏置項。f是啟用函式，有sigmoid、relu等。x就是輸入的資料。資料訓練完成後，儲存的caffemodel裡面，

資料探勘實踐與我的想法之特徵工程

從一個最近的天池資料探勘比賽，記錄部分特徵工程實踐內容。比賽連結商鋪定位本人渣渣，排名TOP21。本部落格採用二分類XGBOOST模型，同時涉及部分的多分類模型。重點介紹業務特徵，對於一些科技特徵，就私藏了。簡單分析比賽資料給了三部分：

文字分類特徵選擇方法

一個系一個特徵t，系統有它和沒它的時候資訊量各是多少，兩者的差值就是這個特徵給系統帶來的資訊量統越是有序，資訊熵就越低；反之，一個系統越亂，資訊熵就越高。所以，資訊熵也可以說是系統有序化程度的一個衡量。資訊增益（特徵的）是指期望資訊或者資訊熵的有效減少量。對於一個特徵t，系統有它和沒它的時候資訊量各是多少，兩

Cocos2dx-- 聊天系統之富文字(RichText)與字型對齊

前言遊戲開發中我們一般都會有聊天系統，我們可以同時或單獨發文字，圖片，表情，超連結等資訊的文字即稱為富文字。如下圖所示：我使用的是cocos-3.4引擎版本里的RichText富文字控制元件實現這些操作的，但cocos自帶封裝的RichText還有一

CountVectorizer與TfidfVectorizer 對文字特徵的特徵抽取

相關推薦