LDA使用一文字聚類

阿新 • • 發佈：2018-12-18

演算法流程：

1. 對給定的語料先分詞，得到分詞後的語料；

2. 構造詞典，corpus_tfidf, 最後構造 corpus_lda

3. Kmeans聚類，pred 是對語料的聚類結果列表。

pred = kmean.predict(tfidf_vec)

#!/usr/bin/python
# -*- coding:utf8 -*-

import os
import time
import re
import jieba.analyse

#生成分詞後的檔案，id + 詞語列表。
def post_cut(url):
    fr = open(url + "/post_data.txt",encoding='utf-8')
    fo = open(url + "/post_key.txt", "w+")
    for line in fr.readlines():
        term = line.strip().split("\t")
        if len(term) == 3 and term[2] != "":
            key_list = jieba.analyse.extract_tags(term[2], 30)  # get keywords
            ustr = term[0] + "\t"  #單獨取出文章id,以備使用。
            for i in key_list:
                ustr += i + " "
            fo.write(ustr + "\n")
    fr.close()
    fo.close()


def post_tfidf(url):
    from sklearn.feature_extraction.text import HashingVectorizer
    fr = open(url + "/post_key.txt")
    id_list = []
    data_list = []
    for line in fr.readlines():
        term = line.strip().split("\t")
        if len(term) == 2:
            id_list.append(term[0])
            data_list.append(term[1])

    hv = HashingVectorizer(n_features=10000, non_negative=True)  # 該類實現hash
    post_tfidf = hv.fit_transform(data_list)  # return feature vector 'fea_train' [n_samples,n_features]
    print('Size of fea_train:' + repr(post_tfidf.shape))
    print(post_tfidf.nnz)
    post_cluster(url, id_list, post_tfidf)


def post_cluster(url, id, tfidf_vec):
    from sklearn.cluster import KMeans
    kmean = KMeans(n_clusters=300)
    print("kmeans")
    kmean.fit(tfidf_vec)
    pred = kmean.transform(tfidf_vec)

    count1 = 0
    count2 = 0
    pred_str = []

    for item in pred:
        count1 += 1
        vec = ""
        for tmp in item :
            vec += str(tmp)[0:7] + "\t"
        pred_str.append(vec)

    print (len(pred_str))
    print (len(id))

    pred = kmean.predict(tfidf_vec)
    fo = open(url + "/cluster.txt", "w+")
    for i in range(len(pred)):
        count2 += 1
        fo.write(id[i] + "\t" + str(pred[i]) + "\n")
    fo.close()
    print("%d+%d" % (count1, count2))


def post_lda(url, cluster):
    from gensim import corpora, models, matutils
    count = 0
    fr = open(url + "/post_key.txt")
    fo2 = open(url + "/post_vec_lda.txt", "w+")
    id_list = []
    data_list = []

    for line in fr.readlines():
        term = line.strip().split("\t")
        if len(term) == 2:
            count += 1
            id_list.append(term[0])
            word = term[1].strip().split()
            data_list.append(word)
    print("構造詞典、語料、tfidf矩陣")
    dic = corpora.Dictionary(data_list)  # 構造詞典
    corpus = [dic.doc2bow(text) for text in data_list]  # 每個text 對應的稀疏向量
    tfidf = models.TfidfModel(corpus)  # 統計tfidf
    corpus_tfidf = tfidf[corpus]  # 得到每個文字的tfidf向量，稀疏矩陣
    #構造文字LDA向量
    lda = models.LdaModel(corpus_tfidf, id2word=dic, num_topics=200)
    corpus_lda = lda[corpus_tfidf]  # 每個文字對應的LDA向量，稀疏的，元素值是隸屬與對應序數類的權重

    num = 0
    for doc in corpus_lda:
        wstr = ""
        for i in range(len(doc)):    #每個doc由多個詞語的索引id和該詞語的word2vec向量組成。
            item = doc[i]
            wstr += str(item[0]) + "," + str(item[1])[0:7] + "/" #要儲存的content。
        fo2.write(id_list[num] + "\t" + wstr[0:-1] + "\n")   #儲存文章id時候，用num作為遞增的值。
        num += 1
    fr.close()
    fo2.close()
    print(num)  #文字個數。

    if cluster:
        lda_csc_matrix = matutils.corpus2csc(corpus_lda).transpose()  # gensim sparse matrix to scipy sparse matrix
        post_cluster(url, id_list, lda_csc_matrix)


if __name__ == "__main__":
    url = "path"
    time1 = time.time()
    post_cut(url)
    post_tfidf(url)
    lda_cluster = True
    post_lda(url, lda_cluster)

    print(time.time() - time1)

LDA使用一文字聚類

演算法流程： 1. 對給定的語料先分詞，得到分詞後的語料； 2. 構造詞典，corpus_tfidf, 最後構造 corpus_lda 3. Kmeans聚類，pred 是對語料的聚類結果列表。 pred = kmean.predict(tfidf_vec) #!/usr/bin

利用LDA進行文字聚類(hadoop, mahout)

專案原理概述利用sqoop將資料從MySQL匯入到HDFS中,利用mahout的LDA的cvb實現對輸入資料進行聚類,並將結果更新到資料庫中。資料流向圖如下 mahout演算法分析輸入資料格式為<IntegerWritable, VectorWritable&g

Fisher準則一維聚類

clas += log 間距 numpy spa post source 變化在做FAQ系統時，用戶輸入一個查詢之後，返回若幹個打好分數的文檔。對於這些文檔，有些是應該輸出的，有些是不應該輸出的。那麽應該在什麽地方截斷呢？這個問題其實是一個聚類問題，在一維空間中把若幹個

pyhanlp 文字聚類詳細介紹

文字聚類文字聚類簡單點的來說就是將文字視作一個樣本，在其上面進行聚類操作。但是與我們機器學習中常用的聚類操作不同之處在於。我們的聚類物件不是直接的文字本身，而是文字提取出來的特徵。因此如何提取特徵因而是非常重要的一步。在HanLP中一共有三個文字聚類方法。前兩種都基於詞袋模式，第一個是最

一趟聚類（One-pass Cluster）及python實現

最近在學資料探勘的相關基礎知識，希望對學習的內容進行整理，以下轉自很棒的師兄的部落格~ 一趟聚類簡介一趟聚類演算法是由蔣盛益教授提出的無監督聚類演算法，該演算法具有高效，簡單的特點。資料集只需要遍歷一遍即可完成聚類。演算法對超球狀分佈的資料有良好的識別，對凸型資料分佈識別較差。一

使用scikit-learn進行KMeans文字聚類

轉載自部落格：https://blog.razrlele.com/p/1614 K-Means 演算法簡介中文名字叫做K-均值演算法，演算法的目的是將n個向量分別歸屬到K箇中心點裡面去。演算法首先會隨機選擇K箇中心向量，然後通過迭代計算以及重新選擇K箇中心向量，使得n個向量各自被分配到距離

異端審判器！一個泛用型文字聚類模型的實現（1）

給你的入侵檢測系統提供一個靈感。如果給你一大堆使用者輸入，裡面有大量的中文地名，像是“北京”、“成都”、“東莞”，不幸的是，其中也混有一些羅馬地名，比如 “Singapore”、“New York”、“Tokyo”。你的任務是將它們分開，你會如何去做？當然，有

文字聚類演算法介紹

個人部落格站已經上線了，網址 www.llwjy.com ~歡迎各位吐槽~ -------------------------------------------------------------------------------------------------

【SciKit-Learn學習筆記】8：k-均值演算法做文字聚類,聚類演算法效能評估

學習《scikit-learn機器學習》時的一些實踐。原理見K-means和K-means++的演算法原理及sklearn庫中引數解釋、選擇。 sklearn中的KMeans from sklearn.datasets import make_blobs from m

sklearn之kmeans文字聚類主題輸出

from sklearn import feature_extraction from sklearn.feature_extraction.text import TfidfTransformer from sklearn.feature_extraction.text import CountV

基於doc2vec的中文文字聚類及去重

Understand doc2vec Data introduction Train a model Test the model Cluster all the lyrics Filter out the duplicates 1. Unde

基於 K-Means 演算法的文字聚類

先粘一篇我的實驗報告，其中涉及的細節，有時間再提出來總結實驗內容：基於K-Means演算法的文字聚類實驗要求： 1、能夠從社交媒體或網上給定的資料集（資料集已給定），從中挖掘出新聞話題，如線上檢測微博訊息中大量突現的關鍵字，並將它們進行聚類，從而找

Machine Learning第八講[非監督學習] -- （一）聚類

一、Unsupervised Learning: Introduction（非監督學習簡介）之前介紹的線性迴歸、logistic迴歸以及神經網路等都是監督學習的例子，通過給出一系統樣本，通過這些樣本去訓練模型進行預測，在這些樣本中，是包含y標籤的，即實際值。在非監督學習中，我們給一系列樣

Python基於Kmeans演算法實現文字聚類的簡單練習

接觸機器學習時間不長，也一直有興趣研究這方面的演算法。最近在學習Kmeans演算法，但由於工作的原因無法接觸到相關的專案實戰。為了理清思路、熟悉程式碼，在參照了幾篇機器學習大神的博文後，做了一個簡單的Kmeans演算法的簡單練習。作為一枚機器學習的門外漢，對於文中的一些錯誤和

[python] Kmeans文字聚類演算法+PAC降維+Matplotlib顯示聚類影象

0 前言本文主要講述以下幾點： 1.通過scikit-learn計算文字內容的tfidf並構造N*M矩陣(N個文件 M個特徵詞)； 2.呼叫scikit-learn中的K-means進行文字聚類； 3.使用PAC進行降維處理，每

文字聚類——Kmeans

上兩篇文章分別用樸素貝葉斯演算法和KNN演算法對newgroup文字進行了分類測試，本文使用Kmeans演算法對文字進行聚類。 1、文字預處理文字預處理在前面兩本文章中已經介紹，此處（略）。 2、文字向量化 package com.datamine.kmeans;

Mahout文字聚類例項

1：下載路透社資料 2：提取文字內容下載的檔案資料格式是SGML格式，這種格式和XML格式很類似。我們需要將這種格式的資料轉化為SequenceFile格式，首先就要提取出txt格式。使用的是Mahout中自帶的工具類：org.apache.lucene.bench

鬼吹燈文字挖掘5：sklearn實現文字聚類和文字分類

1. 準備資料import numpy as np import pandas as pd import re import jieba # 章節判斷用變數預處理 def is_chap_head(tmpstr): import re pattern = r

第六章（1.3）自然語言處理實戰——使用tf-idf演算法實現簡單的文字聚類

一、原理使用jieba切詞用td-idf計算文字的詞頻和逆文件詞頻排序選出最重要的2個或3個詞作為這段文字的id 具有相同id的文字被歸為一類二、使用python實現簡單的文字聚類，其中使用了tf-idf演算法，jieba分詞，把相似的文字聚合在

異端審判器！一個泛用型文字聚類模型的實現（2）

上文連結：異端審判器！一個泛用型文字聚類模型的實現(1) 上回，我們提出了一種只要輸入一堆字串，就能根據字串的構造挑揀出“少數派”，以識別異常引數的構想。我們將它稱作“異端審判”。前文中我們已經定義好了一些必要概念，並寫出了函式實現。我們的程式遞進地量化了字元之間的差異、字串之間的差異，最終得

LDA使用一 文字聚類

相關推薦

LDA使用一文字聚類