sklearn: CountVectorize處理及一些使用引數

阿新 • • 發佈：2020-12-26

sklearn: CountVectorize處理及一些使用引數

CountVectorizer是屬於常見的特徵數值計算類，是一個文字特徵提取方法。對於每一個訓練文字，它只考慮每種詞彙在該訓練文字中出現的頻率。

CountVectorizer會將文字中的詞語轉換為詞頻矩陣，它通過fit_transform函式計算各個詞語出現的次數。

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
        strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
        tokenizer=None, vocabulary=None)

CountVectorizer類的引數很多，分為三個處理步驟：preprocessing、tokenizing、n-grams generation.

一般要設定的引數是:ngram_range,max_df，min_df，max_features，analyzer，stop_words，token_pattern等，具體情況具體分析 。

ngram_range ：例如ngram_range(min,max)，是指將text分成min，min+1，min+2,.........max 個不同的片語。比如 '我愛中國' 中ngram_range(1,3)之後可得到'我' '愛' '中國' '我愛' '愛中國' 和'我愛中國'，如果是ngram_range (1,1) 則只能得到單個單詞'我' '愛'和'中國'。

max_df：可以設定為範圍在[0.0 1.0]的float，也可以設定為沒有範圍限制的int，預設為1.0。這個引數的作用是作為一個閾值，當構造語料庫的關鍵詞集的時候，如果某個詞的document frequence大於max_df，這個詞不會被當作關鍵詞。如果這個引數是float，則表示詞出現的次數與語料庫文件數的百分比，如果是int，則表示詞出現的次數。如果引數中已經給定了vocabulary，則這個引數無效。
min_df: 類似於max_df，不同之處在於如果某個詞的document frequence小於min_df，則這個詞不會被當作關鍵詞。
max_features：預設為None，可設為int，對所有關鍵詞的term frequency進行降序排序，只取前max_features個作為關鍵詞集。

analyzer：一般使用預設，可設定為string型別，如’word’, ‘char’, ‘char_wb’，還可設定為callable型別，比如函式是一個callable型別。
stop_words：設定停用詞，設為english將使用內建的英語停用詞，設為一個list可自定義停用詞，設為None不使用停用詞，設為None且max_df∈[0.7, 1.0)將自動根據當前的語料庫建立停用詞表。
token_pattern：過濾規則，表示token的正則表示式，需要設定analyzer == ‘word’，預設的正則表示式選擇2個及以上的字母或數字作為token，標點符號預設當作token分隔符，而不會被當作token。
decode_error：預設為strict，遇到不能解碼的字元將報UnicodeDecodeError錯誤，設為ignore將會忽略解碼錯誤，還可以設為replace，作用尚不明確。
binary：預設為False，一個關鍵詞在一篇文件中可能出現n次，如果binary=True，非零的n將全部置為1，這對需要布林值輸入的離散概率模型的有用的。

例項：

from sklearn.feature_extraction.text import CountVectorizer
corpus = ['我 愛 中國 中國','爸爸 媽媽 愛 我','爸爸 媽媽 愛 中國']
# corpus = ['我愛中國','爸爸媽媽愛我','爸爸媽媽愛中國']
vectorizer = CountVectorizer(min_df=1, ngram_range=(1, 1)) ##建立詞袋資料結構,裡面相應引數設定
features = vectorizer.fit_transform(corpus)  #擬合模型，並返回文字矩陣
 
print("CountVectorizer:")
print(vectorizer.get_feature_names())   #顯示所有文字的詞彙，列表型別
#詞表
#['中國', '媽媽', '爸爸'] 

print(vectorizer.vocabulary_)    #詞彙表，字典型別
#key：詞，value:對應編號
#{'中國': 0, '爸爸': 2, '媽媽': 1} 

print(features)   #文字矩陣
#第一行 (0, 0)	2 表示為：第0個列表元素，**詞典中索引為0的元素**， 詞頻為2
#  (0, 0)	2       
#  (1, 1)	1
#  (1, 2)	1
#  (2, 1)	1
#  (2, 2)	1
#  (2, 0)	1

print(features.toarray())   #.toarray() 是將結果轉化為稀疏矩陣
#將結果轉化為稀疏矩陣
#[[2 0 0]
# [0 1 1]
# [1 1 1]]

print(features.toarray().sum(axis=0)) #統計每個詞在所有文件中的詞頻
#文字中的詞頻
#[3 2 2]

sklearn: CountVectorize處理及一些使用引數

sklearn: CountVectorize處理及一些使用引數 CountVectorizer是屬於常見的特徵數值計算類，是一個文字特徵提取方法。對於每一個訓練文字，它只考慮每種詞彙在該訓練文字中出現的頻率。

zabbix-get命令使用及zabbix內建的一些引數

技術標籤：linux 一、內建key說明： Zabbix 內建了很多豐富的key，使得咱們再新增linux os模板的時候，已經幫我們把key給定義好，這樣我們就能夠直接連結模板就可以使用了。

插曲：Kafka的生產者原理及重要引數說明

前言本來插曲系列是應大家要求去更新的，但是好像第一篇的kafka效果還可以所以更插曲就勤快些了（畢竟誰不想看著自己被多多點贊呢hhh?），上一篇說了一個案例是為了說明如何去考量一個kafka叢集的部署，算是一個參考

Java定義形式及可變引數例項解析

這篇文章主要介紹了Java定義形式及可變引數例項解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

SpringBoot如何優雅的處理校驗引數的方法

前言做web開發有一點很煩人就是要校驗引數，基本上每個介面都要對引數進行校驗，比如一些格式校驗非空校驗都是必不可少的。如果引數比較少的話還是容易處理的一但引數比較多了的話程式碼中就會出現大量的IF ELSE

Linux下mysql資料庫的建立匯入匯出及一些基本指令

首先linux 下檢視mysql相關目錄檢視 mysql 的安裝路徑執行查詢 SQL mysql>show variables like \'%dir%\';

Python如何使用argparse模組處理命令列引數

這篇文章主要介紹了Python如何使用argparse模組處理命令列引數,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

sklearn-SVC實現與類引數詳解

sklearn-SVC實現與類引數對應的API：http://scikit-learn.sourceforge.net/stable/modules/generated/sklearn.svm.SVC.html

Java8 新特性之日期時間物件及一些其他特性

日期時間物件關於日期時間的操作可以分為兩種：轉換：與字串的互相轉換，與時間戳的互相轉換

node.js使用yargs處理命令列引數操作示例

本文例項講述了node.js使用yargs處理命令列引數。分享給大家供大家參考，具體如下：

Spring MVC獲取查詢引數及路徑引數程式碼例項

這篇文章主要介紹了Spring MVC獲取查詢引數及路徑引數程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Golang import 匯入包語法及一些特殊用法詳解

package 的匯入語法寫 Go 程式碼的時經常用到 import 這個命令用來匯入包，參考如下：

Python關鍵字及可變引數*args,**kw原理解析

可變引數顧名思義，函式的可變引數是傳入的引數可以變化的，1個，2個到任意個。當然可以將這些引數封裝成一個 list 或者 tuple 傳入，但不夠 pythonic。使用可變引數可以很好解決該問題，注意可變引數在函式定義不

Python爬蟲headers處理及網路超時問題解決方案

1、請求headers處理　　我們有時請求伺服器時，無論get或post請求，會出現403錯誤，這是因為伺服器拒絕了你的訪問，這時我們可以通過模擬瀏覽器的頭部資訊進行訪問，這樣就可以解決反爬設定的問題。

Python影象閾值化處理及演算法比對例項解析

影象的二值化或閾值化（Binarization）旨在提取影象中的目標物體，將背景以及噪聲區分開來。通常會設定一個閾值T，通過T將影象的畫素劃分為兩類：大於T的畫素群和小於T的畫素群。

JavaScript函式呼叫及this引數

JS有4種方式呼叫函式作為一個函式(function)——fn()直接被呼叫作為一個方法(methods)——obj.fn()，關聯在物件上呼叫，實現面向物件程式設計

[OHIF-Viewers]醫療數字閱片-醫學影像-REACT向事件處理程式傳遞引數-.bind-傳遞函式給元件

React 【事件處理】React事件和DOM事件、this關鍵字的處理、向事件處理程式傳遞引數、向父元件傳遞引數、React事件機制

目錄： 1. React 事件和 DOM 事件　　如何在 React 中新增事件　　React 事件和傳統 DOM 事件處理異同

部落格園介面背景及一些特效設定

作者：struct_mooc部落格地址：https://www.cnblogs.com/structmooc/p/13418577.html 目錄1.部落格側邊欄公告（支援HTML程式碼）（支援 JS 程式碼）2.頁首HTML程式碼3.頁尾HTML程式碼

面向物件高階及一些方法

property的應用 # 例1# class People:#def __init__(self, name, height, weight):#self.name = name#self.height = height#self.weight = weight##@property#def bmi(self):#return self.weight

sklearn: CountVectorize處理及一些使用引數

sklearn: CountVectorize處理及一些使用引數

例項：

相關推薦