python進行文字分類，基於word2vec,sklearn-svm對微博垃圾評論分類

阿新 • • 發佈：2018-12-27

差不多一年前的第一個分類任務，記錄一下
語料庫是關於微博的垃圾使用者評論，分為兩類，分別在normal,和spam資料夾下。裡面是很多個txt檔案，一個txt是一條使用者評論。

一、進行分詞

利用Jieba分詞和去除停用詞（這裡我用的是全模式分詞），每一篇文件為一行用換行拼接，得到result.txt。其中用到的停用詞是在網上隨便下載的。

# 對句子進行分詞
def seg_sentence(sentence):
    sentence_seged = jieba.cut(sentence.strip())
    stopwords = stopwordslist('stopword.txt')  # 這裡載入停用詞的路徑
    outstr = ''
    for word in sentence_seged:
        if word not in stopwords:
            if word != '\t':
                outstr += word
                outstr += " "
    return outstr

去停用詞後的結果如圖

二.用gensim.word2vec得到詞向量模型

這裡要用到word2vec來訓練詞向量，python要安裝對應的庫。

 logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
    sentences = word2vec.Text8Corpus(u"./data111")  # 載入語料
    if os.path.exists("./model"):
        model = gensim.models.Word2Vec.load('./model')
    else:
        model = word2vec.Word2Vec(sentences, min_count=1, size=50)  # 訓練skip-gram模型
        model.save("./model")

三.每個文件的句子向量求平均求得文件向量

這裡主要是要求得能代表文件的向量，這裡就簡單的將文件中的句子相加求平均，得到一個50維的文件向量。

def get_word_vector(path):
    ip = open(path, 'r', encoding='utf-8')
    content = ip.readlines()
    vecs = []

    for words in content:
        # vec = np.zeros(2).reshape((1, 2))
        vec = np.zeros(50).reshape((1, 50))
        count = 0
        words = remove_some(words)
        for word in words[1:]:
            try:
                count += 1
                # vec += model[word].reshape((1, 2))
                vec += model[word].reshape((1, 50))
                # print(vec)
            except KeyError:
                continue
        vec /= count
        vecs.append(vec)
    return vecs

四.sklearn-svm進行分類

這裡人工建立兩個分別對應垃圾評論和非垃圾評論的標籤，分別用0，1來表示兩類。然後把對應的標籤和語料隨機劃分成訓練集和測試集，放到分類器中訓練和測試。

這裡的標籤是建立了兩個列表：

normal_tag = np.ones((len(normal)))
    spam_tag = np.zeros((len(spam)))

用3：7的比例劃分測試和訓練集

X_train, X_test, y_train, y_test = train_test_split(np.array(train, dtype='float64'),
                                                        np.array(train_tag, dtype='float64'), test_size=0.30,
                                                        random_state=0)  # 隨機選擇30%作為測試集，剩餘作為訓練集

訓練並得到測試結果

clf = svm.SVC()  # 使用RBF核
clf_res = clf.fit(X_train, y_train)
    #  train_pred = clf_res.predict(X_train)
    test_pred = clf_res.predict(X_test)
print(classification_report(y_test, test_pred))

其中rbf核的結果比較好，如下所示

python進行文字分類，基於word2vec,sklearn-svm對微博垃圾評論分類

差不多一年前的第一個分類任務，記錄一下語料庫是關於微博的垃圾使用者評論，分為兩類，分別在normal,和spam資料夾下。裡面是很多個txt檔案，一個txt是一條使用者評論。一、進行分詞利用Jieba分詞和去除停用詞（這裡我用的是全模式分詞），每一篇文件為一行

python進行文字分類，基於word2vec,sklearn-svm對微博性別分類

第一個分類任務，記錄一下語料庫下載一、進行手工分類導師給的資料是兩個資料夾，一個包含了以使用者ID名為標題的一大堆txt（未分類），還有一個資料夾裡面是已經分類好的男女性別ID的集合txt。先要做的任務就是將未分類的txt分成兩類（根據給

Python進行文字預處理（文字分詞，過濾停用詞，詞頻統計，特徵選擇，文字表示）

系統：win7 32位分詞軟體：PyNLPIR 整合開發環境（IDE）：Pycharm 功能：實現多級文字預處理全過程，包括文字分詞，過濾停用詞，詞頻統計，特徵選擇，文字表示，並將結果匯出為WEKA能夠處理的.arff格式。直接上程式碼： #!/usr/bin/

用python讀取文字資訊，進行處理，寫到另一檔案中

題目：把歌詞轉化成一句話一行的文字且不包含標點符號思路：開啟檔案位置，讀取檔案中所有資訊以列表形式展示，把列表轉化成字串，去除裡面的所有空格回車符號。（是為了讓資訊以歌詞形式展開，一句話一行）用正則表示式去除掉裡面所有的標點符號，放入列表中。遍歷列表中的資訊，放到另一個檔案中

python中文分詞，使用結巴分詞對python進行分詞

php 分詞在采集美女站時,需要對關鍵詞進行分詞,最終采用的是python的結巴分詞方法.中文分詞是中文文本處理的一個基礎性工作，結巴分詞利用進行中文分詞。其基本實現原理有三點：基於Trie樹結構實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖（DAG)采用了動態規劃查找最大概率

Python 進行 SSH 操作，實現本地與服務器的鏈接，進行文件的上傳和下載

enc 項目介紹 use 解讀數據庫文件需要 toad 鏈接 {} Python 進行 SSH 操作，實現本地與服務器的鏈接，進行文件的上傳和下載 2018年5月26日 19:03 閱讀 375 評論 7 我本地和服務器的連接一直使用的是 Xshell 5，

非常精簡的Mnist分類，基於tensorflow框架

一、介紹基於tensorflow框架實現的Mnist資料分類。程式碼主要包括網路結構的搭建，訓練超引數的匯入和儲存，損失函式地繪製等。不足之處是在網路結尾沒用使用softmax函式，而直接使用了tanh輸出了分類結果。下面請看程式碼的詳細介紹二、程式

使用python進行文字替換（包括替換檔名、資料夾名、文字名）

目錄一、需求分析二、細節要點三、程式碼四、總結一、需求分析總體概述：替換檔名稱的替換如果資料夾或文字檔案（各類字尾檔案）的名稱中存在某個字串，則將他替換為另外的字串。檔案內容的替換如果文字檔案（各類字尾檔案）的內

使用python進行面部合成，至少比PS新手的效果更好吧

一. 準備工作 1. 此程式使用的是 Face++ 的API,所以需要去Face++官網註冊賬號: 2. 建立應用,獲取 key 和 secret 推薦下我自己建立的Python學習交流群960410445，這是Python學習交流的地方，不管你是小白還是大牛，小編都歡迎，

使用python進行面部合成，比PS好用多了

一. 準備工作 1. 此程式使用的是 Face++ 的API,所以需要去Face++官網註冊賬號: 2. 建立應用,獲取 key 和 secret 3. 下載 simplejson 模組 ,使用pip就可以下載了 pip

使用Python進行文字資訊的比較並生成HTML報告

使用Python可以實現類似Linux中diff的命令，還能夠輸出HTML文件，這是我一直期待的。如果辦公環境十分封閉，使用diff命令都難的時候，這無疑是很好的補充。 Python中的標準庫有一個d

使用百度api進行文字識別，完成英語作業

使用百度API進行文字識別，完成英語作業介紹這學期選了一門英語翻譯課，作業需要提交翻譯稿，但是老師為了防止我們利用翻譯軟體複製貼上，很精明的把需要翻譯的內容拍成了照片發給了我們。為了更“快”更“好“的完成作業，我就突發奇想，如果使用ocr識別照片中的文字，就不用手動把照片裡面

[硬貨]|如何利用深度學習寫詩歌（使用Python進行文字生成）

翻譯：李雪冬前言從短篇小說到寫5萬字的小說，機器不斷湧現出前所未有的詞彙。在web上有大量的例子可供開發人員使用機器學習來編寫文字，呈現的效果有荒謬的也有令人歎為觀止的。由於自然語言處理(NLP)領域的重大進步

利用python進行折線圖，直方圖和餅圖的繪製

我用10個國家某年的GDP來繪圖，資料如下： labels = ['USA', 'China', 'India', 'Japan', 'Germany', 'Russia', 'Brazil', 'UK', 'France', 'Italy'] quants =

python 進行文字相似性對比

糾正：在機器學習系統設計一書中，關於求歐幾里得範數是使用scipy下的linagl.norm來求的，在實際中用的應該是numpy中的linalg.norm來求的，當然也可能是我下載的scipy包和書中的不一樣一種文字相似性度量的方式叫做 --Levenshtein距離

用 Python 進行資料分析，不懂 Python，求合適的 Python 書籍或資料推薦？

我自己的碩士論文是用Python做資料分析的(https://github.com/cqcn1991/Wind-Speed-Analysis) 這個回答，可能不是很適合題主。題主應該就是想稍微用一下Python. 我這裡介紹的是系統性、偏重使用的。1. 什麼樣的教程最好，最快、最適合入門對於0基礎的人來說，

【python與機器學習入門3】樸素貝葉斯2——垃圾郵件分類

參考部落格：樸素貝葉斯基礎篇之言論過濾器（po主Jack-Cui,《——大部分內容轉載自參考書籍：《機器學習實戰》——第四章4.6

Python的 is 和 == ，你真的搞定對象了嗎？

分享交流相同為什麽 pre str int 同一性爬蟲 https 在Python中一切都是對象。 Python中對象包含的三個基本要素，分別是： id(身份標識) type(數據類型) value(值) 對象之間比較是否相等可以用 == ，也可以用 is 。 i

【原創】概述總結基於前後端的Web微博應用

進一步 info get、post、下載復雜 ring 請求協議更新前後端分離一、需求調研二、DB設計三、My——負責個人信息管理的開發，包括信息查看與修改； 1.前端 SPA:我來說（相比於傳統網頁應用，每一次跳轉都

利用500萬條微博語料對微博評論進行情感分析

最近身邊的人都在談論一件事：10月8日中午的一條微博，引發了一場微博的軒然大波。導致微博癱瘓的原因是全球超人氣偶像明星鹿晗發了一條“大家好，給大家介紹一下，這是我女朋友@關曉彤”。這條微博並@關曉彤。資料分析，可以在這裡自取！截止目前，鹿晗的這條微博已經被轉發1

python進行文字分類，基於word2vec,sklearn-svm對微博垃圾評論分類

相關推薦