中文文字分類

阿新 • • 發佈：2018-11-25

將文字進行分類是自然語言處理當中最主要的工作之一，本文處理很重要的一項工作就是對文字進行向量化，本文不做詳細的介紹，只是採用TF-IDF的方法對文字進行向量化，然後分別採用SVM, Bayes, RandomForest，BP四種方法對文字進行分類。

訓練語料是在excel中儲存的，格式見下圖：

data = pd.read_excel('../corpus.xlsx', encoding='utf-8', header=None)
data.columns = ['class_label', 'text']
data.dropna(inplace=True)

# 載入自定義詞典
jieba.load_userdict('../dict_out.csv')
# 載入停用詞表
stopkey = [line.strip().decode('utf-8') for line in open("../stopwords.dat", "rb").readlines()]
stopkey.append(" ")
list1 = []
list2 = []
for i in data["text"]:
    try:
        jiebas = jieba.cut(i)
        jiebas = [w for w in jiebas if w not in stopkey]
        fenci_key = ",".join(jiebas)
    except AttributeError:
        continue
    finally:
        list2.append(jiebas)
        list1.append(fenci_key.strip())
# 將分分詞結果寫入data
data["tokens"] = list1
data.to_excel("1data.xls", header=None, index=False)

該文字訓練庫共有10000條資料，分為：'體育', '娛樂', '家居', '房產', '教育', '時尚', '時政', '遊戲', '科技', '財經'這10個類別。

本文的分類主要工程如下：

對文字內容進行分詞處理，刪除停用詞，只留下有意義的詞語。

data = pd.read_excel('../corpus.xlsx', encoding='utf-8', header=None)
data.columns = ['class_label', 'text']
data.dropna(inplace=True)

# 載入自定義詞典
jieba.load_userdict('../dict_out.csv')
# 載入停用詞表
stopkey = [line.strip().decode('utf-8') for line in open("../stopwords.dat", "rb").readlines()]
stopkey.append(" ")
list1 = []
list2 = []
for i in data["text"]:
    try:
        jiebas = jieba.cut(i)
        jiebas = [w for w in jiebas if w not in stopkey]
        fenci_key = ",".join(jiebas)
    except AttributeError:
        continue
    finally:
        list2.append(jiebas)
        list1.append(fenci_key.strip())
# 將分分詞結果寫入data
data["tokens"] = list1
data.to_excel("1data.xls", header=None, index=False)

2.將語料庫分為訓練集和測試集

data = pd.read_excel('1data.xls', encoding='utf-8', header=None)
data.columns=[ 'class_label','text', 'tokens']
label = data['class_label']
categories = []
for i in label:
    if i in categories:
        pass
    else:
        categories.append(i)
print(categories)

le = preprocessing.LabelEncoder().fit_transform(data['class_label'])
data["class_label"] = le
# 劃分訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(data["tokens"], 
                                                    data["class_label"], 
                                                    test_size=0.2,
                                                    random_state=1)

3.對片語進行TF-IDF處理，將各個片語轉換成詞向量。具體理論可檢視其他相關資料，這裡不再做詳細的闡述

# 宣告文字特徵提取方法
# 文字特徵提取
X_train_tfidf, tfidf_vectorizer = tfidf(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

def tfidf(data):
    tfidf_vectorizer = TfidfVectorizer()
    train = tfidf_vectorizer.fit_transform(data)
    return train, tfidf_vectorizer

4.分別採用上面提到的分類方法進行訓練和測試，並檢視測試結果

def get_metrics(y_test, y_predicted):
    """
    y_test:真實值
    y_predicted：預測值
    """
    # 精確度=真陽性/（真陽性+假陽性）
    precision = precision_score(y_test, y_predicted, pos_label=None, average='weighted')
    # 召回率=真陽性/（真陽性+假陰性）
    recall = recall_score(y_test, y_predicted, pos_label=None, average='weighted')
    # F1
    f1 = f1_score(y_test, y_predicted, pos_label=None, average='weighted')
    # 準確率
    accuracy = accuracy_score(y_test, y_predicted)
    return accuracy, precision, recall, f1
def BayesClassify():
    clf_tfidf = MultinomialNB(alpha=0.01)
    clf_tfidf.fit(X_train_tfidf, y_train)
    joblib.dump(clf_tfidf, "BayesModel.m")

def BayesTest():
    clf_tfidf = joblib.load("BayesModel.m")
    y_predicted_tfidf = clf_tfidf.predict(X_test_tfidf)
    accuracy_tfidf, precision_tfidf, recall_tfidf, f1_tfidf = get_metrics(y_test, y_predicted_tfidf)
    print("accuracy = %.6f, precision = %.6f, recall = %.6f, f1 = %.6f" % (
        accuracy_tfidf, precision_tfidf, recall_tfidf, f1_tfidf))
    # 評估
    print("Precision, Recall, F1-Score and support")
    print(metrics.classification_report(y_test, y_predicted_tfidf, target_names=categories))

    # 混淆矩陣
    print("Confusion Matrix...")
    cm = metrics.confusion_matrix(y_test, y_predicted_tfidf)
    print(cm)
def SVMClassify():
    clf_tfidf = SVC(gamma=1, kernel='rbf', probability=True)
    clf_tfidf.fit(X_train_tfidf, y_train)
    joblib.dump(clf_tfidf, "SVMModel.m")

def SVMTest():
    clf_tfidf = joblib.load("SVMModel.m")
    y_predicted_tfidf = clf_tfidf.predict(X_test_tfidf)
    accuracy_tfidf, precision_tfidf, recall_tfidf, f1_tfidf = get_metrics(y_test, y_predicted_tfidf)
    print("accuracy = %.6f, precision = %.6f, recall = %.6f, f1 = %.6f" % (
        accuracy_tfidf, precision_tfidf, recall_tfidf, f1_tfidf))
    # 評估
    print("Precision, Recall, F1-Score and support")
    print(metrics.classification_report(y_test, y_predicted_tfidf, target_names=categories))

    # 混淆矩陣
    print("Confusion Matrix...")
    cm = metrics.confusion_matrix(y_test, y_predicted_tfidf)
    print(cm)
def RandomForestClassify():
    clf_tfidf = clf_tfidf = RandomForestClassifier(n_estimators=100, max_depth=100, random_state=0)
    clf_tfidf.fit(X_train_tfidf, y_train)
    joblib.dump(clf_tfidf, "RandomForestModel.m")

def RandomForestTest():
    clf_tfidf = joblib.load("RandomForestModel.m")
    y_predicted_tfidf = clf_tfidf.predict(X_test_tfidf)
    accuracy_tfidf, precision_tfidf, recall_tfidf, f1_tfidf = get_metrics(y_test, y_predicted_tfidf)
    print("accuracy = %.6f, precision = %.6f, recall = %.6f, f1 = %.6f" % (
        accuracy_tfidf, precision_tfidf, recall_tfidf, f1_tfidf))
    # 評估
    print("Precision, Recall, F1-Score and support")
    print(metrics.classification_report(y_test, y_predicted_tfidf, target_names=categories))

    # 混淆矩陣
    print("Confusion Matrix...")
    cm = metrics.confusion_matrix(y_test, y_predicted_tfidf)
    print(cm)
def BPClassify(inputPoint):
    net = Sequential()
    net.add(Dense(128, input_shape=(inputPoint,)))
    net.add(Activation('relu'))
    
    net.add(Dense(len(categories), input_shape=(128,)))
    net.add(Activation('sigmoid'))
    
    net.compile(optimizer='adam', loss='binary_crossentropy')
    net.fit(X_train_tfidf, y_train_onehot, batch_size=128, epochs=2)


    y_predicted_tfidf = net.predict(X_test_tfidf)
    print(y_predicted_tfidf)
    res = np.zeros((y_test.shape[0], 1))
    for i, j in enumerate(y_predicted_tfidf):
        j = list(j)
        maxIndex = j.index(max(j))
        res[i] = maxIndex
    y_predicted_tfidf = res
    
    accuracy_tfidf, precision_tfidf, recall_tfidf, f1_tfidf = get_metrics(y_test, y_predicted_tfidf)
    print("accuracy = %.6f, precision = %.6f, recall = %.6f, f1 = %.6f" % (
        accuracy_tfidf, precision_tfidf, recall_tfidf, f1_tfidf))
    # 評估
    print("Precision, Recall, F1-Score and support")
    print(metrics.classification_report(y_test, y_predicted_tfidf, target_names=categories))

    # 混淆矩陣
    print("Confusion Matrix...")
    cm = metrics.confusion_matrix(y_test, y_predicted_tfidf)
    print(cm)

最終的分類效果較為理想，準確率和召回率都在90%以上。其中SVM耗時稍長。

文字分類 svm 貝葉斯隨機森林神經網路

使用機器學習完成中文文字分類

資料集來自七月線上練習 import jieba import pandas as pd import random from sklearn.model_selection import train_test_split #劃分訓練/測試集 from sk

中文文字分類

將文字進行分類是自然語言處理當中最主要的工作之一，本文處理很重要的一項工作就是對文字進行向量化，本文不做詳細的介紹，只是採用TF-IDF的方法對文字進行向量化，然後分別採用SVM, Bayes, RandomForest

CNN-中文文字分類-開源專案-自定義資料集

最近參加學校的一個數據分析比賽，因為自己前面自學了一些基本的機器學習演算法，但其實還處於入門階段，便參加了。選擇了一道中文文字分類的題目。今日頭條使用者畫像選題背景：隨著機器創作能力越來越強，今後社會媒體上將會產生越來越多的機器創作者自動生產的內容。有效

大作業之中文文字分類（終稿）

import os import numpy as np import sys from datetime import datetime import gc path = 'H:\大三上大作業\python大作業\date' import jieba with open(r'H:\大三上大作業\py

spark中文文字分類

最近要做一個點評中文的文字分類模型，想在spark中訓練模型，然後通過把tf過程、idf過程、以及模型封裝到一個類裡面一個java類中，然後寫到redis中，但是spark中idf過程中碰到一些困難，忘高手賜教，先看下面程式碼： package com.meituan.s

樸素貝葉斯(NaiveBayes)針對小資料集中文文字分類預測

轉自相國大人的部落格， http://blog.csdn.net/github_36326955/article/details/54891204 做個筆記程式碼按照1 2 3 4的順序進行即可： 1.py(corpus_segment.py) #!/usr/bin/e

Spark MLlib實現的中文文字分類–Naive Bayes

文字分類是指將一篇文章歸到事先定義好的某一類或者某幾類，在資料平臺的一個典型的應用場景是，通過爬取使用者瀏覽過的頁面內容，識別出使用者的瀏覽偏好，從而豐富該使用者的畫像。本文介紹使用Spark MLlib提供的樸素貝葉斯（Naive Bayes）演算法，完成對中文文字的

CNN字元級中文文字分類-基於TensorFlow實現

本章旨在使用TensorFlow API實現卷積神經網路文字分類。如今，TensorFlow大版本已經升級到了1.3，對很多的網路層實現了更高層次的封裝和實現，甚至還整合瞭如Keras這樣優秀的一些高層次框架，使得其易用性大大提升

python 中文文字分類

寫這篇博文用了很多時間和精力，如果這篇博文對你有幫助，希望您可以打賞給博主相國大人。哪怕只捐1毛錢，也是一種心意。通過這樣的方式，也可以培養整個行業的智慧財產權意識。我可以和您建立更多的聯絡，並且在相關領域提供給您更多的資料和技術支援。賞金將用於拉薩兒童圖書公益募捐手機

CNN在中文文字分類的應用

深度學習近一段時間以來在影象處理和NLP任務上都取得了不俗的成績。通常，影象處理的任務是藉助CNN來完成的，其特有的卷積、池化結構能夠提取影象中各種不同程度的紋理、結構，並最終結合全連線網路實現資訊的彙總和輸出。RNN由於其記憶功能為處理NLP中的上下文提供了途徑。在短文字分

基於樸素貝葉斯的中文文字分類器(python實現，非呼叫)

本文將用樸素貝葉斯原理做一箇中文文字分類器。樸素貝葉斯完全可以勝任多分類任務。為了方便，這裡就先做個2分類的。理論部分：https://blog.csdn.net/montecarlostyle/article/details/79870860 我們事先準備兩

TensorFlow使用CNN實現中文文字分類

讀研期間使用過TensorFlow實現過簡單的CNN情感分析（分類），當然這是比較low的二分類情況，後來進行多分類情況。但之前的學習基本上都是在英文詞庫上訓練的。斷斷續續，想整理一下手頭的專案資料，於是就拾起讀研期間的文字分類的小專案，花了一點時間，把原來英文文字分類的專案，應用在中文文字分類，效

用樸素貝葉斯分類演算法做中文文字分類

一. 樸素貝葉斯分類演算法的原理樸素貝葉斯分類器基於屬性條件獨立假設：對於已知類別，假設所有屬性相互獨立，也就是說，假設每個屬性獨立地對分類結果產生影響。設待分類的樣本屬性集為TT，其中包含nn個屬性，分別為t1,t2,t3...tnt1,t2,t3..

中文文字分類（機器學習演算法原理與程式設計實踐筆記）

以文字分類演算法為中心，詳細介紹一箇中文文字分類專案的流程及相關知識，知識點涉及中文分詞、向量空間模型、TF-IDF方法、幾個典型的文字分類演算法；主要有樸素貝葉斯演算法，kNN最近鄰演算法。所用到的外部庫：jieba 分詞、Scikit-Learning

基於Text-CNN模型的中文文字分類實戰

1 文字分類文字分類是自然語言處理領域最活躍的研究方向之一，目前文字分類在工業界的應用場景非常普遍，從新聞的分類、商品評論資訊的情感分類到微博資訊打標籤輔助推薦系統，瞭解文字分類技術是NLP初學者比較好的切入點，較簡單且應用場景高頻。

資料探勘+python 中文文字分類

修改自：http://blog.csdn.net/github_36326955/article/details/54891204 文字分類摘要文字分類指按照預先定義的主題類別，為文件集合中的每個文件確定一個類別。這樣使用者不但能夠方便地瀏覽文件，而且可以通過限

cnn、rnn實現中文文字分類（基於tensorflow）

tensorflow版本： In[33]: tf.__version__Out[33]:'1.2.1' 首先是資料獲取： curl -O "ht

利用transformer進行中文文字分類（資料集是復旦中文語料）

利用TfidfVectorizer進行中文文字分類（資料集是復旦中文語料）利用RNN進行中文文字分類（資料集是復旦中文語料）利用CNN進行中文文字分類（資料集是復旦中文語料）和之前介紹的不同，重構了些程式碼，為了使整個流程更加清楚，

如何使用BERT實現中文的文字分類（附程式碼）

如何使用BERT模型實現中文的文字分類前言 Pytorch readme 引數表演算法流程 1. 概述 2. 讀取資料 3. 特徵轉換 4. 模型訓練 5. 模型測試

自然語言處理課程作業中文文字情感分類

摘要：20世紀初以來，文字的情感分析在自然語言處理領域成為了研究的熱點，吸引了眾多學者越來越多的關注。對於中文文字的情感傾向性研究在這樣一大環境下也得到了顯著的發展。本文主要是基於機器學習方法的中文文字情感分類，主要包括：使用開源的Markup處理程式對XML檔案進行分析處理、中科院計算所開源的中文分詞處理

中文文字分類

相關推薦