對文章的分類和聚類

阿新 • • 發佈：2019-01-31

以之前抓取的“科技”和“娛樂”文章為例

‘articls.csv’中的內容如圖：

分類

import jieba
import joblib
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn import svm
from sklearn.model_selection import train_test_split
from 
 sklearn import tree
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier

#獲取停用詞
def get_stop_words():
    content=list()
    with open(r'stop.txt',encoding='utf-8') as f:
        for line in f:
            content.append(line.strip())
    return content
stop_hanzi=get_stop_words()
print(' ' 
.join(stop_hanzi))
#'$ 0 1 2 3 4 5 6 7 8 9 ? _ “ ” 、 。 《 》 一 一些 一何 一切......'

#將文章進行清洗，轉換
article_path=r'articls.csv'
def get_TFIDF():
    labels = list()  #標籤庫，做驗證用
    corpus = list()  # 語料庫 空格連線
    # 讀取語料  一行為一個文件
    for line in open(article_path, 'r',encoding='utf8').readlines():
        label, content=line.strip().split(',' 
)
        content=[x for x in jieba.cut(content) if x not in stop_hanzi]
        #如果文章不為空
        if content:
            corpus.append(' '.join(content))
            labels.append(label)    
    labels=list(map(lambda x:0 if x=='news_tech' else 1,labels))    

    # 將文字中的詞語轉換為詞頻矩陣 矩陣元素a[i][j] 表示j詞在i類文字下的詞頻
    vectorizer = CountVectorizer()
    # 該類會統計每個詞語的tf-idf權值
    transformer = TfidfTransformer()
    # 第一個fit_transform是計算tf-idf（詞頻-逆文章頻率）， 第二個fit_transform是將文字轉為詞頻矩陣
    tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))
    # 獲取詞袋模型中的所有詞語
    word = vectorizer.get_feature_names()  
    # 將tf-idf矩陣抽取出來，元素w[i][j]表示j詞在i類文字中的tf-idf權重
    weight = tfidf.toarray()    
    return weight,np.array(labels)

weight,labels=get_TFIDF()
print('weight.shape: {}, lables.shape: {}'.format(weight.shape,labels.shape))
# weight.shape: (884, 44870), lables.shape: (884,),表示有884篇文章，提取了44870個特徵詞

#訓練集與測試集的比例為6:4
x_train, x_test, y_train, y_test=train_test_split(weight,labels,test_size=0.4, random_state=0)

#使用SVM分類器
kernels=['sigmoid','linear','rbf']
for kernel in kernels:
    clf = svm.SVC(kernel=kernel).fit(x_train, y_train)
    print('svm_{}_accuracy:{}'.format(kernel,clf.score(x_test, y_test)))

#svm_sigmoid_accuracy:0.576271186440678
#svm_linear_accuracy:0.9971751412429378
#svm_rbf_accuracy:0.576271186440678

#使用決策樹分類
clf = tree.DecisionTreeClassifier().fit(x_train, y_train)
print('{}:{}'.format('DecisionTreeClassifier', clf.score(x_test, y_test)))
#DecisionTreeClassifier:0.9293785310734464

#使用隨機森林分類
clf = RandomForestClassifier(n_estimators=10, max_depth=None,min_samples_split=2, random_state=0).fit(x_train, y_train)
print('{}:{}'.format('RandomForestClassifier', clf.score(x_test, y_test)))
#RandomForestClassifier:0.9717514124293786

#使用AdaBoostClassifier
clf = AdaBoostClassifier(n_estimators=100).fit(x_train, y_train)
print('{}:{}'.format('AdaBoostClassifier', clf.score(x_test, y_test)))
#AdaBoostClassifier:0.9717514124293786

#使用GradientBoostingClassifier
from sklearn.ensemble import GradientBoostingClassifier
clf = GradientBoostingClassifier(n_estimators=100,random_state=0).fit(x_train, y_train)
print('{}:{}'.format('GradientBoostingClassifier', clf.score(x_test, y_test)))
#GradientBoostingClassifier:0.9548022598870056

#使用交叉驗證集
from sklearn.model_selection import cross_val_score
clf = svm.SVC(kernel='linear')
scores = cross_val_score(clf, weight, labels, cv=5)
scores
#array([ 0.98876404,  0.97740113,  0.97740113,  0.97727273,  0.98863636])

#使用GridSearchCV調參
from sklearn.model_selection import GridSearchCV
parameters = {'kernel':('linear', 'rbf'), 'C':[1, 5]}
clf=GridSearchCV(estimator =svm.SVC(),param_grid =parameters,scoring='accuracy',cv=5)  
clf.fit(weight,labels)

clf.best_params_ 
#{'C': 1, 'kernel': 'linear'}
clf.best_score_ 
#0.98190045248868774

parameters ={'n_estimators':range(10,61,10)} 
clf = GridSearchCV(estimator =RandomForestClassifier(min_samples_split=2, random_state=0),param_grid =parameters,scoring='accuracy',cv=5)
clf.fit(weight,labels)

clf.best_params_ 
#{'n_estimators': 40}
clf.best_score_ 
#0.98190045248868774

#使用 kaggle神器xgboost
#下載地址https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost

import xgboost as xgb
from xgboost import XGBClassifier

clf = XGBClassifier()
clf.fit(x_train, y_train)
print('{}_accuracy:{}'.format('xgboost',clf.score(x_test, y_test)))
#xgboost_accuracy:0.9745762711864406

#使用GridSearchCV對XGBClassifier調參
parameters = {'learning_rate' : [0.001, 0.01, 0.1, 0.4, 0.7]}
clf = GridSearchCV(estimator = XGBClassifier(), param_grid = parameters, scoring="neg_log_loss", n_jobs=-1, cv=5)
clf.fit(weight,labels)

clf.best_params_ 
#{'learning_rate': 0.1}
clf.best_score_ 
0.97285067873303166

聚類

from sklearn.cluster import KMeans

weight,labels=get_TFIDF()

# 選擇2箇中心點
clf = KMeans(n_clusters=2)
# clf.fit(X)可以把資料輸入到分類器裡
clf.fit(weight)

# 列印2箇中心點
print('cluster_center:')
print(clf.cluster_centers_)
#cluster_center:
#[[  2.65940140e-04   8.00510130e-05   7.36860595e-05 ...,   5.35179931e-05
#    3.78464085e-05   6.36585103e-05]
# [  2.48911399e-04   5.80102231e-05   1.45779433e-04 ...,  -8.80914265e-20
#    5.75982404e-20   0.00000000e+00]]

# 儲存模型
joblib.dump(clf, 'kmeans.pkl')
# 載入儲存的模型
clf = joblib.load('kmeans.pkl')
#預測
clf.fit_predict(weight)

#列印分類結果
print(clf.labels_)
#[1 0 1 0 1 1 0 0 1 1 0 0 0 0 1 1 0 0 1 0 1 1 1 0 ......]

#對聚類結果打分
score = accuracy_score(clf.labels_, labels)
#因為聚類對0, 1的不確定性，結果越趨近0或1越好，0.5左右就是亂猜了
score = max(score,1-score)
score
#0.95248868778280538

對文章的分類和聚類

以之前抓取的“科技”和“娛樂”文章為例 ‘articls.csv’中的內容如圖：分類 import jieba import joblib from sklearn.feature_extraction.text import CountVe

資料探勘中的分類和聚類

分類(classification )：有指導的類別劃分，在若干先驗標準的指導下進行，效果好壞取決於標準選取的好壞。　　它找出描述並區分資料類或概念的模型(或函式)，以便能夠使用模型預測類標記未知的物件類。分類分析在資料探勘中是一項比較重要的任務, 目前在商業上應用最多

分類和聚類的區別及各自的常見演算法

1、分類和聚類的區別： Classification (分類)，對於一個classifier，通常需要你告訴它“這個東西被分為某某類”這樣一些例子，理想情況下，一個 classifier 會從它得到的訓練集中進行“學習”，從而具備對未知資料進行分類的能力

新聞資訊類系統 ---- 文章分類和標籤的設計

零. 簡介部落格、 CMS（網易新聞、騰訊新聞）之類的系統，核心就是文章，一切的一切都圍繞著文章進行，所以設計一個好的文章分類和標籤的資料庫關係模型，對後續編碼及維護將會起到至關重要

文本分類，聚類數據源--webkb 20newsGroup R8

分詞 dataset http data .org pan jin 數據源 -s 1.數據下載地址 http://pan.baidu.com/s/1ge9bJIN 2.這些數據已經分過類別-webkb 20newsGroup R8，預處理 -----分詞 stemmi

destoon6.0獲取當前分類和子類

子類是否輸出 return from category intval where 分類信息頁面上的$CAT 和怎麽獲得當前分類的名稱跟子類 $CAT 在根目錄下的 commen.inc.php定義賦值 if($catid) $CAT = get_cat($c

社會網絡分析之”組成部分”、小圈子和聚類

直接 cli 引入網絡網絡圖其他社交網絡個人直觀組成部分（Components） “組成部分“這個翻譯有點不太直觀，如果哪位朋友有更好的翻譯方式，請告知我。組成部分是一個在網絡圖中的子圖，該子圖與外界沒有聯系。比如生活在某個太平洋小島上的居民們，他們與外界可能

迴歸、分類與聚類：三大方向剖解機器學習演算法的優缺點

在本教程中，作者對現代機器學習演算法進行一次簡要的實戰梳理。雖然類似的總結有很多，但是它們都沒有真正解釋清楚每個演算法在實踐中的好壞，而這正是本篇梳理希望完成的。因此本文力圖基於實踐中的經驗，討論每個演算法的優缺點。而機器之心也在文末給出了這些演算法的具體實現細節。對機器學習演算法進行分類不是一

無監督分類：聚類分析（K均值）

1.K均值聚類 K均值聚類是最基礎的一種聚類方法。K均值聚類，就是把看起來最集中、最不分散的簇標籤分配到輸入訓練樣本{xi}中。具體而言就是通過下式計算簇y的分散狀況：在這裡，∑i,yi=y表示

一篇文章透徹解讀聚類分析及案例實操

1 聚類分析介紹 1.1 基本概念聚類就是一種尋找資料之間一種內在結構的技術。聚類把全體資料例項組織成一些相似組，而這些相似組被稱作聚類。處於相同聚類中的資料例項彼此相同，處於不同聚類中的例項彼此不同。聚類技術通常又被稱為無監督學習，因為與監督學習不同，在聚類中那

sklearn實戰：對文件進行聚類分析（KMeans演算法）

%matplotlib inline import matplotlib.pyplot as plt import numpy as np from time import time from sklearn.datasets import load_fi

《BI那點兒事》Microsoft 順序分析和聚類分析演算法

Microsoft 順序分析和聚類分析演算法是由 Microsoft SQL Server Analysis Services 提供的一種順序分析演算法。您可以使用該演算法來研究包含可通過下面的路徑或“順序”連結到的事件的資料。該演算法通過對相同的順序進行分組或分類來查詢最常見的順序。下面是一些順序示例：

2. 觀點提取和聚類代碼詳解

opinion n) math hold 依存關系 sed words 根據 com 1. pyhanlp介紹和簡單應用 2. 觀點提取和聚類代碼詳解 1. 前言本文介紹如何在無監督的情況下，對文本進行簡單的觀點提取和聚類。 2. 觀點提取觀點提取是通過依存關系的方式，

基於hadoop生態系統的mahout推薦和聚類分析（1）

簡介 hadoop是Apache旗下的一個開源分散式計算平臺，在分散式環境下為使用者提供處理海量資料的能力。 mahout是hadoop下的一個子專案，主要用於推薦、分類和聚類分析一、推薦關於推薦的演算法有很多，本次主要介紹協同過濾演算法。（1）基於使用者的協

word2vec中文相似詞計算和聚類

學習過程中遇到寫的特別細的文章，因此就不再贅述，給出連結，方便查閱：https://blog.csdn.net/eastmount/article/details/50700528https://blog.csdn.net/zhaoxinfan/article/details

【總結】分類、聚類的評估指標

1. 分類問題評價指標 1-1. 精確率與召回率精確率（Precision）指的是模型判為正的所有樣本中有多少是真正的正樣本；召回率（Recall）指的是所有正樣本有多少被模型判為正樣本，即召回。感覺精確率是個區域性的，召回率是個全域性的。精確率與召回率 1-2. ROC 真正類率(true posi

AI學習---回歸和聚類算法

img back aid log tle itl 算法 none idt 其他資料鏈接：https://pan.baidu.com/s/1ofN2QFxpzC-OtmTFE2fHfw 提取碼：o4c2 AI學習---回歸和聚類算法

EM 演算法-對鳶尾花資料進行聚類

> **公號：碼農充電站pro** > **主頁：** 之前介紹過[K 均值演算法](https://www.cnblogs.com/codeshell/p/14084190.html)，它是一種聚類演算法。今天介紹**EM 演算法**，它也是聚類演算法，但比**K 均值**演算法更加靈活強大。 **EM

機器學習筆記（3）——使用聚類分析演算法對文字分類（分類數k未知）

聚類分析是一種無監督機器學習（訓練樣本的標記資訊是未知的）演算法，它的目標是將相似的物件歸到同一個簇中，將不相似的物件歸到不同的簇中。如果要使用聚類分析演算法對一堆文字分類，關鍵要解決這幾個問題：如何衡量兩個物件是否相似演算法的效能怎麼度量如何確定分類的個數或聚類

【演算法】聚類和分類

目錄一、聚類和分類的區別簡單的說，聚類的分析沒有學習集，而分類有學習集二、常用聚類演算法 1.動態聚類：K-means方法演算法步驟： 1.選擇K個點作為初始質心　　2.將每個點指派到

對文章的分類和聚類

分類

聚類

相關推薦