中文短文字聚類

阿新 • • 發佈：2018-11-30

文字聚類是將文件由原有的自然語言文字資訊轉化成數學資訊，以高維空間點的形式展現出來，通過計算哪些點距離比較近，從而將那些點聚成一個簇，簇的中心叫做簇心。

import random
import jieba
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
import gensim
from gensim.models import Word2Vec
from sklearn.preprocessing import scale
import multiprocessing
#載入停用詞
stopwords=pd.read_csv('D://input_py//day07//stopwords.txt',index_col=False,quoting=3,sep="\t",names=['stopword'], encoding='utf-8')
stopwords=stopwords['stopword'].values
#載入語料
laogong_df = pd.read_csv('D://input_py//day07//beilaogongda.csv', encoding='utf-8', sep=',')
laopo_df = pd.read_csv('D://input_py//day07//beilaogongda.csv', encoding='utf-8', sep=',')
erzi_df = pd.read_csv('D://input_py//day07//beierzida.csv', encoding='utf-8', sep=',')
nver_df = pd.read_csv('D://input_py//day07//beinverda.csv', encoding='utf-8', sep=',')
#刪除語料的nan行
laogong_df.dropna(inplace=True)
laopo_df.dropna(inplace=True)
erzi_df.dropna(inplace=True)
nver_df.dropna(inplace=True)
#轉換
laogong = laogong_df.segment.values.tolist()
laopo = laopo_df.segment.values.tolist()
erzi = erzi_df.segment.values.tolist()
nver = nver_df.segment.values.tolist()

# 定義分詞函式preprocess_text
def preprocess_text(content_lines, sentences):
    for line in content_lines:
        try:
            segs=jieba.lcut(line)
            segs = [v for v in segs if not str(v).isdigit()]#去數字
            segs = list(filter(lambda x:x.strip(), segs))   #去左右空格
            segs = list(filter(lambda x:len(x)>1, segs)) #長度為1的字元
            segs = list(filter(lambda x:x not in stopwords, segs)) #去掉停用詞
            sentences.append(" ".join(segs))
        except Exception:
            print(line)
            continue

sentences = []
preprocess_text(laogong, sentences)
preprocess_text(laopo, sentences)
preprocess_text(erzi, sentences)
preprocess_text(nver, sentences)

random.shuffle(sentences)
# 控制檯輸出前10條資料
for sentence in sentences[:10]:
    print(sentence)

# 將文字中的詞語轉換為詞頻矩陣 矩陣元素a[i][j] 表示j詞在i類文字下的詞頻
vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5)
# 統計每個詞語的tf-idf權值
transformer = TfidfTransformer()
# 第一個fit_transform是計算tf-idf 第二個fit_transform是將文字轉為詞頻矩陣
tfidf = transformer.fit_transform(vectorizer.fit_transform(sentences))
# 獲取詞袋模型中的所有詞語
word = vectorizer.get_feature_names()
# 將tf-idf矩陣抽取出來，元素w[i][j]表示j詞在i類文字中的tf-idf權重
weight = tfidf.toarray()
# 檢視特徵大小
print ('Features length: ' + str(len(word)))

# TF-IDF 的中文文字 K-means 聚類
numClass=4  # 聚類分幾簇
clf = KMeans(n_clusters=numClass, max_iter=10000, init="k-means++", tol=1e-6)  #這裡也可以選擇隨機初始化init="random"
pca = PCA(n_components=10)  # 降維
TnewData = pca.fit_transform(weight)  # 載入N維
s = clf.fit(TnewData)

# 定義聚類結果視覺化函式
def plot_cluster(result,newData,numClass):
    plt.figure(2)
    Lab = [[] for i in range(numClass)]
    index = 0
    for labi in result:
        Lab[labi].append(index)
        index += 1
    color = ['oy', 'ob', 'og', 'cs', 'ms', 'bs', 'ks', 'ys', 'yv', 'mv', 'bv', 'kv', 'gv', 'y^', 'm^', 'b^', 'k^',
             'g^'] * 3
    for i in range(numClass):
        x1 = []
        y1 = []
        for ind1 in newData[Lab[i]]:
            # print ind1
            try:
                y1.append(ind1[1])
                x1.append(ind1[0])
            except:
                pass
        plt.plot(x1, y1, color[i])

    # 繪製初始中心點
    x1 = []
    y1 = []
    for ind1 in clf.cluster_centers_:
        try:
            y1.append(ind1[1])
            x1.append(ind1[0])
        except:
            pass
    plt.plot(x1, y1, "rv") #繪製中心
    plt.show()

# 對資料降維到2維，繪製聚類結果圖
# pca = PCA(n_components=2)  # 輸出2維
# newData = pca.fit_transform(weight)  # 載入N維
# result = list(clf.predict(TnewData))
# plot_cluster(result,newData,numClass)

# 先用 PCA 進行降維，再使用 TSNE
from sklearn.manifold import TSNE
newData = PCA(n_components=4).fit_transform(weight)  # 載入N維
newData =TSNE(2).fit_transform(newData)
result = list(clf.predict(TnewData))
plot_cluster(result,newData,numClass)

執行結果：
在這裡插入圖片描述

中文短文字聚類

文字聚類是將文件由原有的自然語言文字資訊轉化成數學資訊，以高維空間點的形式展現出來，通過計算哪些點距離比較近，從而將那些點聚成一個簇，簇的中心叫做簇心。 import random import jieba import pandas as pd import numpy as np f

中文短文字分類

特徵提取+樸素貝葉斯模型： import random import jieba import pandas as pd #載入停用詞 stopwords=pd.read_csv('D://input_py//day06//stopwords.txt',index_col=Fals

（NLP）基於分詞標籤的中文短文字相似度

基於分詞標籤的中文短文字相似度最近接觸到了一些關於中文短文字相似度的演算法，將它們總結在此：中文編輯距離基於詞頻的餘弦相似度 Python difflib github傳送門：https://github.com/gongpx20069/DIY

新聞上的文字分類：機器學習大亂鬥王嶽王院長王嶽王院長 5 個月前目標從頭開始實踐中文短文字分類，記錄一下實驗流程與遇到的坑運用多種機器學習（深度學習 + 傳統機器學習）方法比較短文字分類處

目標從頭開始實踐中文短文字分類，記錄一下實驗流程與遇到的坑運用多種機器學習（深度學習 + 傳統機器學習）方法比較短文字分類處理過程與結果差別工具深度學習：keras 傳統機器學習：sklearn參與比較的機器學習方法 CNN 、 CNN + word2vec LSTM 、 LSTM + word

深度學習與中文短文字分析總結與梳理

1.緒論過去幾年，深度神經網路在模式識別中佔絕對主流。它們在許多計算機視覺任務中完爆之前的頂尖演算法。在語音識別上也有這個趨勢了。而中文文字處理，以及中文自然語言處理上，似乎沒有太厲害的成果？尤其是中文短文字處理的問題上，尚且沒有太成功的應用於分散式

中文短文字相似度：WMD

開篇句子相似是目前我做問句匹配的基礎。這是我嘗試使用詞向量，以一種無監督方法去計算兩個句子相似度的第二種方法。第一種方法，我嘗試使用詞向量的加權平均生成句向量來計算句子間的相似度，效果很一般，之後我會嘗試使用不同的加權方法再次計算。有機會我會連著程式碼一起放

獲取一個臨時檔案和對中文檔名字進行編碼的工具類

　　　　首先我們明白，一個檔案可以命名為任何名稱，比如一個excel，我們可以命名為不帶字尾，然後向裡面寫入對應的內容，只是在匯出的時候將檔案命名為正確的名字即可。　　一個在當前使用者的預設臨時資料夾中生成一個當前日期的資料夾，然後再裡面寫入一個用UUID生成名字的檔案，常用於Java

Spark應用HanLP對中文語料進行文字挖掘--聚類詳解教程

軟體：IDEA2014、Maven、HanLP、JDK；用到的知識：HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition; 用到的資料集：http://www.threedweb.cn/thread-1288-1-1.html（不需要下載，已

TF-IDF + K-Means 中文聚類例子 - scala

Demo僅供參考使用spark1.6 import java.io.{BufferedReader, InputStreamReader} import java.util.Arrays import org.ansj.splitWord.analysis.ToAnaly

結合Doc2Vec與改進聚類演算法的中文單文件自動摘要方法研究

圖1 本文方法示意圖一．基於Doc2Vec 的句子向量訓練 Doc2Vec 模型能很好地結合上下文語境, 挖

基於doc2vec的中文文字聚類及去重

Understand doc2vec Data introduction Train a model Test the model Cluster all the lyrics Filter out the duplicates 1. Unde

NLP 中文文字聚類之無監督學習

在有監督學習方面，筆者已經講述了基於 ML 和 DL 的中文文字分類。本場 Chat 筆者將在文字相似性度量（聚類重點會用到上一篇中各種距離的度量）的基礎上，趁熱打鐵，在無監督學習方面，完成中文文字的聚類實戰。你將主要學習到如下內容：無監督學習的研究現狀。 K-mean

[python] 使用Jieba工具中文分詞及文字聚類概念

一. Selenium爬取百度百科摘要簡單給出Selenium爬取百度百科5A級景區的程式碼： # coding=utf-8 """ Created on 2015-12-10 @author: Eastmount """ impo

word2vec中文相似詞計算和聚類

學習過程中遇到寫的特別細的文章，因此就不再贅述，給出連結，方便查閱：https://blog.csdn.net/eastmount/article/details/50700528https://blog.csdn.net/zhaoxinfan/article/details

機器學習-KMeans聚類 K值以及初始類簇中心點的選取

src 常用趨勢試圖重復執行很大的一個點 3.4 選擇【轉】http://www.cnblogs.com/kemaswill/archive/2013/01/26/2877434.html 本文主要基於Anand Rajaraman和Jeffrey David

.net對含有中文的字符串進行MD5加密

utf result crypto pla ace tolower 編碼 ice convert MD5CryptoServiceProvider MD5 = new MD5CryptoServiceProvider(); var Sign = Bi

php實現中文反轉字符串的方法

str1 單個 head 共和國 list har 字符串 string text 1 <?php 2 3 header("content-type:text/html;charset=utf-8"); 4 /** 5 此函數的作用是反轉中文字符串

Canopy聚類算法

數據預處理 stage border 虛線其他重復 str ati 通過一、概念與傳統的聚類算法(比如K-means)不同，Canopy聚類最大的特點是不需要事先指定k值(即clustering的個數)，因此具有很大的實際應用價值。與其他聚類算法相比，Can

K均值聚類算法的MATLAB實現

均值選擇自己 eps 隨機生成工具 images num step 1.K-均值聚類法的概述之前在參加數學建模的過程中用到過這種聚類方法，但是當時只是簡單知道了在matlab中如何調用工具箱進行聚類，並不是特別清楚它的原理。最近因為在學模式識別，又重新接觸了這

java直接調用kmeans聚類

mea 計算 new () nts main ini void 數據結構 import kmeans.kmeans;import kmeans.kmeans_data;import kmeans.kmeans_param; public class Kmeans { pub

中文短文字聚類

相關推薦