python學習-文字資料分析1(主題提取+詞向量化)

阿新 • • 發佈：2019-01-03

原文地址：

http://blog.sina.com.cn/s/blog_727a704c0102vn44.html

使用Python 進行簡單文字類資料分析，包括：
1. 分詞
2. 生成語料庫，tfidf加權
3. lda主題提取模型
4. 詞向量化word2vec
參考：
http://zhuanlan.zhihu.com/textmining-experience/1963076

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import MySQLdb
import pandas as pd
import pandas.io.sql as sql
import jieba
import nltk
import jieba.posseg as pseg
from gensim import corpora, models, similarities
import re

# import logging
# logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s',level=logging.INGO)

# reload(sys)
# sys.setdefaultencoding('utf-8')

if __name__ == '__main__':
    #使用者詞典匯入
    jieba.load_userdict("F:\userdict.txt")
    #1. 讀取資料
    conn = MySQLdb.connect(host='', port=3306, charset='utf8',user='', passwd='', db='')
    df = sql.read_sql('select * from test',conn)
    conn.close()
    cont = df['commcont']
#示例資料（電商評論）：
0           標籤：洗衣機不錯操作簡單全自動不錯心得：洗衣機很滿意！洗寶寶衣服的~！小巧方便~！！
1       標籤：洗衣時間短脫水聲音小脫水很好噪音很小操作簡單心得：比超市便宜，挺好用的，床單也可以洗。
2    標籤：脫水很好脫水聲音小洗衣效果好心得：質量、設計都非常好，外觀也很漂亮。很滿意。要注意這款...
3                標籤：洗衣乾淨動力足洗衣效果好心得：比較小巧，非常不錯，大品牌有保障！！！
4                             心得：很適合家庭使用小件的衣物及時就洗出來了方便
5                 標籤：洗衣機不錯操作簡單心得：非常不錯的洗衣機，價格也還不錯，支援京東！
6                  標籤：脫水很好操作簡單心得：給兒子買的脫水用，還不錯~~~~~~~~~
7                                       心得：很好的烘乾機，已經用了
8    標籤：操作簡單心得：說是防纏繞，不知道是怎麼個防纏繞法，脫水聲音超大，像是在撞牆一樣版本：6...
9                 標籤：全自動不錯心得：買來送長輩的，還沒用，看起來還可以版本：6.5公斤
    # 2. 簡單過濾某些特定詞
    pattern = ur'標籤|心得'
    regx = re.compile(pattern)
    r = lambda x: regx.sub('',x)
    filtercont = cont.map(r)
    # 分詞+選詞
    nwordall = []
    for t in cont:
        words =pseg.cut(t)
        nword = ['']
        for w in words:
            if((w.flag == 'n'or w.flag == 'v' or w.flag == 'a') and len(w.word)>1):
                nword.append(w.word)
        nwordall.append(nword)

    # 3. 選擇後的詞生成字典
    dictionary = corpora.Dictionary(nwordall)
    #print dictionary.token2id
    # 生成語料庫 
    corpus = [dictionary.doc2bow(text) for text in nwordall]
    #tfidf加權
    tfidf = models.TfidfModel(corpus)
    # print tfidf.dfsx
    # print tfidf.idf
    corpus_tfidf = tfidf[corpus]
    # for doc in corpus_tfidf:
    #      print doc

    # 4. 主題模型lda，可用於降維
    #lda流式資料建模計算，每塊10000條記錄，提取50個主題
    lda = models.ldamodel.LdaModel(corpus=corpus_tfidf, id2word=dictionary, num_topics=50,     update_every=1, chunksize=10000, passes=1)
    for i in range(0,3):
        print lda.print_topics(i)[0]
    #lda全部資料建模，提取100個主題
    #lda = models.ldamodel.LdaModel(corpus=corpus_tfidf, id2word=dictionary, num_topics=100, update_every=0, passes=20)
    #利用原模型預測新文字主題
    # doc_lda = lda[corpus_tfidf]

#提取出的前3個主題的結果： 
0.028*算輕 + 0.028*操作 + 0.027*噪音 + 0.026*不久 + 0.025*送貨 + 0.025*很好 + 0.024*牌子 + 0.022*簡單 + 0.021*很小 + 0.020*評價
0.047*脫水 + 0.035*聲音 + 0.034*價效比 + 0.031*起來 + 0.026*經典 + 0.025*不錯 + 0.024*希望 + 0.022*知道 + 0.020*喜歡 + 0.020*問題
0.056*不用 + 0.032*代買 + 0.029*次數 + 0.024*凍手 + 0.023*稍差 + 0.022*優點 + 0.022*地方 + 0.021*缺點 + 0.020*面板 + 0.019*送貨

   #5. word2vec 詞向量化，可用於比較詞相似度，尋找對應關係，詞聚類
    #sentences = models.word2vec.LineSentence(nwordall)
    #size為詞向量維度數,windows視窗範圍,min_count頻數小於5的詞忽略,workers是執行緒數
    model = models.word2vec.Word2Vec(nwordall, size=100, window=5, min_count=5, workers=4)
    #model.save("F:\word2vecmodels") 建模速度慢，建議儲存，後續直接呼叫
    #model = models.word2vec.Word2Vec.load("F:\word2vecmodels")
    print model[u'洗衣']
    #向量表示
    sim = model.most_similar(positive=[u'洗衣', u'方便'])
    #相近詞
    for s in sim:
        print "word:%s,similar:%s " %(s[0],s[1])
#找到“洗衣”和”方便“相似度高的詞
word:容量,similar:0.949171900749 
word:動力,similar:0.946333944798 
word:時間,similar:0.939984798431 
word:乾淨,similar:0.918717443943 
word:滾筒,similar:0.90215164423 
word:外觀,similar:0.886778771877 
word:功能,similar:0.882432937622 
word:效果,similar:0.880518734455 
word:聲音,similar:0.878705024719 
word:電機,similar:0.878492772579

python學習-文字資料分析1(主題提取+詞向量化)

原文地址： http://blog.sina.com.cn/s/blog_727a704c0102vn44.html 使用Python 進行簡單文字類資料分析，包括： 1. 分詞 2. 生成語料庫，tfidf加權 3. lda主題提取模型 4. 詞向量化word2vec

Python學習筆記-資料分析-Numpy01

Numpy是Python開源的科學計算工具包，主要的特點如下：強大的N維陣列物件：ndarray 對陣列結構資料進行運算（不用遍歷迴圈）隨機數、線性代數、傅立葉變換等多種功能說明：

Python學習筆記-資料分析-Numpy02-通用函式

Numpy通用函式一、陣列形狀— —.T/.reshape()和.resize()** 1、numpy.T ：轉置，例如原shape為(3,4)/(2,3,4)，轉置結果為(4,3)/(4,3,2)

Python學習筆記-資料分析-Numpy04-隨機數

Numpy隨機數 1、隨機數是資料分析中很重要的一個輔助工具。裡面包含正太分佈、均勻分佈等等很多型別。通過隨機數可以生成我們想要的符合某個特性的資料，以便我們學習新的工具包或者測試某個演算法。 2、這裡

Python學習筆記-資料分析-Numpy05-資料的輸入輸出

Numpy資料的輸入輸出 import numpy as np import os # 先設定一下工作路徑 # 在寫路徑的時候，如果直接拷貝路徑過來的話會所“\”的斜槓，我個人習慣前面加上r，防止對字串

Python學習筆記——資料分析之Matplotlib繪圖

目錄 Matplotlib 是一個 Python 的 2D繪相簿，通過 Matplotlib，開發者可以僅需要幾行程式碼，便可以生成繪圖，直方圖，功率譜，條形圖，錯誤圖，散點圖等。用於創建出版質

PYTHON學習（三）之利用python進行數據分析(1)---準備工作

-- 下載 rip 安裝包 png 要求 eight code 電腦　　學習一門語言就是不斷實踐，python是目前用於數據分析最流行的語言，我最近買了本書《利用python進行數據分析》（Wes McKinney著），還去圖書館借了本《Python數據分析基礎教程--N

Python資料分析 | (1)Python語法基礎

本篇部落格所有示例使用Jupyter NoteBook演示。 Python資料分析系列筆記基於:利用Python進行資料分析(第2版) 下載密碼:pelb 目錄 Python語法基礎 1.語言的語義 2.函式和物件方法呼叫 3.變數和引數傳遞

python金融資料分析1：tushare使用

介紹 tushare是比較出名的資料獲取工具使用可以快速獲取需要分析的資料安裝使用pip安裝，由於tushare比較坑不會安裝依賴，經常彈出ImportError錯誤，只能堅持不懈的安裝器依賴庫,bs4, request, lxml等等忘記了多少

Python學習手冊筆記（1）：Python對象類型

python 在Python中一切皆對象，Python程序可以分解為模塊、語句、表達式及對象。如下所示：1 程序由模塊組成2 模塊包含語句3 語句包含表達式4 表達式建立並處理對象內置對象（核心類型）：1）數字：>>> 2+2 #整數加法4>>&g

Python學習之路——day 1

exc 默認 image java imp final python ret ber Python安裝　　前往官網下載安裝包，選擇自己需要的Python版本。現在的Python早已進入3.x時代，最好選擇3.x的版本。2.x的版本已不在更新，且將在2020年停止服務。　

Python學習筆記（2.1）函數參數練習

col python學習 nbsp cnblogs print item info inf -- 關鍵字參數和命名關鍵字參數 # -*- coding: utf-8 -*- def print_scores(**kw): print(‘

python學習_day42_mysql表操作1

過期 nod 必須這也年月日 b+ 括號 mvc 發布一、配置文件　　服務端和客戶端的字符編碼不一樣時，可能會導致亂碼顯示等情況，為了統一兩端的字符編碼，可以通過配置文件進行實現，當然譬如登錄賬戶等信息也可以進行配置，在啟動mysql服務端時會自動讀取配置文件中的內

用Python進行數據分析-1

優化離散概率采樣可變對象測量 pca -o 維表 session 第一章準備工作 1.3 重要的python數據庫 Numpy：是python科學計算的基礎包，本書大部分內容都基於numpy以及構建於其上的庫功能如下： -快速高效的多維數組對象ndarray。 -

python學習之路-day4.1

函數（高階函數、嵌套函數、匿名函數）裝飾器生成器裝飾器需要了解以下三點知識：1、函數即變量；2、高階函數；3、嵌套函數；所以首先先普及一下知識點：變量定義x = 1，數據1讀取到內存中，可以理解為存到一房間中，而x表示房間號；函數定義，函數體部分讀取到內存中，而函數名表示房間號；def te

python學習之scipy實戰1

tegra brush AI urn __name__ ret clas return inf import numpy as np def main(): #1-- Integral積分 from scipy.integrate import quad,

python學習-ansible簡單使用1

color 計算平臺 exc rda 管理方式開源大數據 ctime lse 一、介紹Ansible 一種集成 IT 系統的配置管理、應用部署、執行特定任務的開源平臺，是 AnsibleWorks 公司名下的項目，該公司由 Cobbler 及 Func 的作者於 201

Python學習---抽屜框架分析[點贊功能/文件上傳分析]0317

b- NPU script ron tro ref 前臺 for inpu 點贊功能分析前臺傳遞過來新聞id[new_id]和session[session內有用戶ID和用戶之間的信息]到後臺後臺News數據庫內用戶和新聞是多對多的關系，查看第三張表中的內容，判讀用戶I

小專案（文字資料分析）--新聞分類任務

1.資料 import pandas as pd import jieba #資料(一小部分的新聞資料) df_news = pd.read_table('val.txt',names=['category','theme','URL','content'],encoding='ut

資料探勘之售房資料分析1

最近再做一批關於售房的資料，感覺自己陷入一個死衚衕裡：該批資料是儲存再postgresql裡面，是從某售房網站上爬下來的，以資料庫中的一列欄位作為儲存資料，該列欄位是以json的資料形式儲存的，這裡跟我打開了一個新大門，資料庫能儲存json資料格式的資料，而且postgresql還有一套專門的

python學習-文字資料分析1(主題提取+詞向量化)

相關推薦