Python使用doc2vec和LR進行文字分類

阿新 • • 發佈：2019-02-08

（1）資料預處理
a.對文字資料進行貼標籤處理，標籤資料類似入下：

平素體質:健康狀況:良,既往有“高血壓病史”多年。#1

其中1表示患有高血壓，0表示沒有患有高血壓。
然後進行分開，文字儲存在一個檔案，標籤儲存在一個檔案，文字內容和標籤行對行對應。
b.對文字檔案的內容進行分詞。

import jieba

#讀取資料生成sentences
file=open(u'/home/ubuntu/file/資料平衡分類',encoding='utf-8')
filenoclass=open(u'/home/ubuntu/file/資料平衡無分類','w')
fileclass=open(u'/home/ubuntu/file/資料平衡分類結果' 
,'w')
documents=[]
tig=[]
for lines in file:
    text=lines.strip().split('#')
    segs=jieba.cut(text[0])
    for seg in segs:
        filenoclass.write(seg+" ")
    filenoclass.write('\n')
    fileclass.write(str(text[1])+'\n')
filenoclass.close()
fileclass.close()
file.close()

（2）訓練doc2vec得到文字向量

import gensim
from sklearn.linear_model import LogisticRegression
import pandas as pd
from sklearn.model_selection import train_test_split

file = open(u'/home/ubuntu/file/資料平衡無分類', encoding='utf-8')
fileclass=open(u'/home/ubuntu/file/資料平衡分類結果',encoding='utf-8')
documents = gensim.models.doc2vec.TaggedLineDocument(file)
model = gensim.models.Doc2Vec(documents, size=100 
, window=8, min_count=100, workers=8)
#生成文字向量
print(model.docvecs[1])

（3）準備進行分類的資料

def getData():
    #生成pandas
    tigs = []
    data_dict = {}
    # 生成pandas資料
    for tig in fileclass:
        tigs.append(tig.strip())
    for i in range(len(model.docvecs)):
        data_dict['p' + str(i)] = model.docvecs[i]
    print(tigs)
    print(data_dict)
    data = pd.DataFrame(data_dict)
    data = data.T
    data['class0'] = tigs
    X_train1, X_test1, y_train1, y_test1 = train_test_split(data, data['class0'], test_size=0.4, random_state=0)
    return X_train1, y_train1, X_test1, y_test1

（4）準備測試方法

def getRecognitionRate(testPre, testClass):
    testNum = len(testPre)
    rightNum = 0
    for i in range(0, testNum):
        if testClass[i] == testPre[i]:
            rightNum += 1
    return float(rightNum) / float(testNum)

（5）進行模型訓練

import gensim
from sklearn.linear_model import LogisticRegression
import pandas as pd
from sklearn.model_selection import train_test_split

file = open(u'/home/ubuntu/file/資料平衡無分類', encoding='utf-8')
fileclass=open(u'/home/ubuntu/file/資料平衡分類結果',encoding='utf-8')
documents = gensim.models.doc2vec.TaggedLineDocument(file)
model = gensim.models.Doc2Vec(documents, size=100, window=8, min_count=100, workers=8)
#生成文字向量
print(model.docvecs[1])
#使用邏輯迴歸進行預測
def LR():
    clf = LogisticRegression()
    return clf
def getRecognitionRate(testPre, testClass):
    testNum = len(testPre)
    rightNum = 0
    for i in range(0, testNum):
        if testClass[i] == testPre[i]:
            rightNum += 1
    return float(rightNum) / float(testNum)
def getData():
    #生成pandas
    tigs = []
    data_dict = {}
    # 生成pandas資料
    for tig in fileclass:
        tigs.append(tig.strip())
    for i in range(len(model.docvecs)):
        data_dict['p' + str(i)] = model.docvecs[i]
    print(tigs)
    print(data_dict)
    data = pd.DataFrame(data_dict)
    data = data.T
    data['class0'] = tigs
    X_train1, X_test1, y_train1, y_test1 = train_test_split(data, data['class0'], test_size=0.4, random_state=0)
    return X_train1, y_train1, X_test1, y_test1
T = getData()
trainMatrix, trainClass, testMatrix, testClass = T[0], T[1], T[2], T[3]
clf_LR=LR()
clf_LR.fit(trainMatrix, trainClass)
print('Logistic Regression recognition rate: ', getRecognitionRate(clf_LR.predict(testMatrix), testClass))

Python使用doc2vec和LR進行文字分類

（1）資料預處理 a.對文字資料進行貼標籤處理，標籤資料類似入下：平素體質:健康狀況:良,既往有“高血壓病史”多年。#1 其中1表示患有高血壓，0表示沒有患有高血壓。然後進行分開，文字儲存在一個檔案，標籤儲存在一個檔案，文字內容和標籤行對行對應。

一次失敗的嘗試？使用 CNN+DT進行文字分類

最近在搞機器學習，產品需要對句子進行主題分類，具體來說就是給你一兩句話，然後把他劃分到不同的主題上。那經過調研測試，使用 text-cnn 進行主題分類效果不錯，準確率達到了92%。今天突然來「靈感」了，覺得可以嘗試CNN+DesicionTree，如何實施呢？ 1

NLP：主題模型LDA+SVM進行文字分類

參考：http://www.cnblogs.com/pinard/p/6908150.htmlhttp://blog.csdn.net/TiffanyRabbit/article/details/764

用Flair（PyTorch構建的NLP開發包）進行文字分類

Flair是一個基於PyTorch構建的NLP開發包，它在解決命名實體識別（NER）、語句標註（POS）、文字分類等NLP問題時達到了當前的頂尖水準。本文將介紹如何使用Flair構建定製的文字分類器。簡介文字分類是一種用來將語句或文件歸入一個或多個分類的有監督機器學習方法，被廣泛

python進行文字分類，基於word2vec,sklearn-svm對微博垃圾評論分類

差不多一年前的第一個分類任務，記錄一下語料庫是關於微博的垃圾使用者評論，分為兩類，分別在normal,和spam資料夾下。裡面是很多個txt檔案，一個txt是一條使用者評論。一、進行分詞利用Jieba分詞和去除停用詞（這裡我用的是全模式分詞），每一篇文件為一行

Python使用jieba分詞並用weka進行文字分類

一、安裝pycharm 二、安裝Python 三、在Python下安裝pip，如下圖所示，pip安裝成功四、在python下安裝jieba：如下圖所示，jieba安裝成功：五

使用scikit-learn進行文字分類

1. 資料來源所用的資料是分類好的資料，詳細描述見SMS Spam Collection v. 1，可以從github下載，資料在第4章。每一行資料包括包括兩列，使用逗號隔開，第1列是分類（lable），第2列是文字。 sms = pd.read_csv(filen

圖解機器學習：神經網路和 TensorFlow 的文字分類

開發人員經常說，如果你想開始機器學習，你應該首先學習演算法。但是我的經驗則不是。我說你應該首先了解：應用程式如何工作。一旦瞭解了這一點，深入探索演算法的內部工作就會變得更加容易。那麼，你如何開發直覺學習，並實現理解機器學習這個目的？一個很好的方法是建立機器學習模型。假設

樸素貝葉斯方法進行文字分類

1. 引言貝葉斯方法是一個歷史悠久，有著堅實的理論基礎的方法，同時處理很多問題時直接而又高效，很多高階自然語言處理模型也可以從它演化而來。因此，學習貝葉斯方法，是研究自然語言處理問題的一個非常好的切入口。 2. 貝葉斯公式貝葉斯公式就一行：

python進行文字分類，基於word2vec,sklearn-svm對微博性別分類

第一個分類任務，記錄一下語料庫下載一、進行手工分類導師給的資料是兩個資料夾，一個包含了以使用者ID名為標題的一大堆txt（未分類），還有一個資料夾裡面是已經分類好的男女性別ID的集合txt。先要做的任務就是將未分類的txt分成兩類（根據給

NLP-使用CNN進行文字分類

CNN最初用於處理影象問題，但是在自然語言處理中，使用CNN進行文字分類也可以取得不錯的效果。在文字中，每個詞都可以用一個行向量表示，一句話就可以用一個矩陣來表示，那麼處理文字就與處理影象是類似的了。目錄一、卷積神經網路CNN

文字處理——基於 word2vec 和 CNN 的文字分類：綜述 & 實踐（一）

導語傳統的向量空間模型（VSM）假設特徵項之間相互獨立，這與實際情況是不相符的，為了解決這個問題，可以採用文字的分散式表示方式(例如 word embedding形式)，通過文字的分散式表示，把文字表示成類似影象和語音的連續、稠密的資料。這樣我們就可以把深度學習方法遷移到文字

使用字串核函式進行文字分類

摘要:特徵空間為所有長度為k的子串集合，核函式定義為其上的內積操作，注意這裡的k不要求連續（權值隨長度遞減，因此會重點關注那些鄰接的項），由於組合爆炸，直接計算是無法接受的，該篇文章所述方法和詞特徵向量核方法(stardard word feature space ker

使用CNN進行文字分類

nlp文字分類，可以使用全連線神經網路文字分類，rnn文字分類。CNN在文字分類中發展很快，本例使用tensorflow佈置，構造一個CNN文字分類器，相應的使用方法和scikit-learn一樣僅僅需要三步（模型實體化，模型訓練，模型預測）相應程式碼如下（檔名為：T

GCN和GCN在文字分類中應用

1.GCN的概念傳統CNN卷積可以處理圖片等歐式結構的資料，卻很難處理社交網路、資訊網路等非歐式結構的資料。一般圖片是由c個通道h行w列的矩陣組成的，結構非常規整。而社交網路、資訊網路等是圖論中的圖(定點和邊建立起的拓撲圖)

資料探勘入門系列教程（七）之樸素貝葉斯進行文字分類

資料探勘入門系列教程（七）之樸素貝葉斯進行文字分類貝葉斯分類演算法是一類分類演算法的總和，均以貝葉斯定理為基礎，故稱之為貝葉斯分類。而樸素貝葉斯分類演算法就是其中最簡單的分類演算法。樸素貝葉斯分類演算法樸素貝葉斯分類演算法很簡單很簡單，就一個公式如下所示： P(B|A) = \frac{P(A|B) P

基於Huggingface使用BERT進行文字分類的fine-tuning

隨著BERT大火之後，很多BERT的變種，這裡借用Huggingface工具來簡單實現一個文字分類，從而進一步通過Huggingface來認識BERT的工程上的實現方法。 1、load data train_df = pd.read_csv('../data/train.tsv',delimiter='\t

樸素貝葉斯分類-實戰篇-如何進行文字分類

> **微信公眾號：碼農充電站pro** > **個人主頁：** 上篇介紹了[樸素貝葉斯的原理](https://www.cnblogs.com/codeshell/p/13999440.html)，本篇來介紹如何用樸素貝葉斯解決實際問題。樸素貝葉斯最擅長的領域是文字分析，包括： - 文字分類 - 情

利用jieba,word2vec,LR進行搜狐新聞文字分類基於jieba,TfidfVectorizer,LogisticRegression進行搜狐新聞文字分類

一、簡介　1）jieba 　　中文叫做結巴，是一款中文分詞工具，https://github.com/fxsjy/jieba 　2）word2vec 　　單詞向量化工具，https://radimrehurek.com/gensim/models/word2vec.html 　3）LR 　　Lo

Atitit 現代資訊檢索 Atitit 重要章節息檢索建模檢索評價第8章　文字分類 Line 210: 第9章　索引和搜尋第11章　Web檢索第13章　結構化文字檢索目錄 L

Atitit 現代資訊檢索 Atitit 重要章節息檢索建模檢索評價第8章　文字分類 Line 210: 第9章　索引和搜尋第11章　Web檢索第13章　結構化文字檢索目錄 Line 1

Python使用doc2vec和LR進行文字分類

相關推薦