Python3 利用openpyxl 以及jieba 對帖子進行關鍵詞抽取 ——向量生成

阿新 • • 發佈：2018-04-21

還得 work 反思 append 字母分享圖片 alpha else 賦值

Python3 利用openpyxl 以及jieba 對帖子進行關鍵詞抽取 ——向量生成

20180417學習筆記、20180421修改

一、工作

今天中午開了一次小組討論會議，老師旁聽了並給出了一些意見。

今天的工作主要是兩個，一個是構造SVM所需要的向量，一個是標註無關帖子500條。
但是後面遇到一個很麻煩的問題。。。細思恐極不知道該咋辦。。。

（1）生成向量

主要任務，是將“t1.xlsx”中的關鍵詞，取前100個出來。

構成一個1*100的向量，就像（監督，自由，民主，...，體制，民主制度，言論自由，民主監督）這樣。

以這個向量為準，對各個帖子進行判斷，倘若一個帖子中出現若幹個關鍵詞（比如出現了“監督”、“民主”，其他關鍵詞均沒出現），該帖子的向量則為(1,0,1.......0,0,X,X,X)。

後面的XXX則是該帖子的三個民主子話題的評分。如

技術分享圖片

上述向量改寫為(1,0,1.......0,0,1,5,1)。

那麽，具體怎麽構造向量呢？

在正式寫代碼前，思考這樣一個問題：
我們之前寫入excel文件的時候，是采用直接賦值的方法，也就是
asheet["%s%d" % (a,n)].value=str(i)這個樣子的，其中a代表的就是表格中的列號。

那麽我們有100各個關鍵詞，而字母只有26個，怎麽繼續編排呢。我們發現，表格在Z之後其實是重新以A開頭再按ABCD的順序繼續編排的，也就是說，接下來的27列是"AA",28是"AB"，以此類推。。。

故，我們需要再組裝出一個裝列號的list——alphabet[]。
怎麽做呢，兩個循環就好了
o=‘A‘
 for i in range(26):   
   alphabet.append(o)
   p=ord(o)+1
   o=chr(p)
（其中ord是獲取字符的ascii碼的函數，而chr是將ascii碼轉化成字符的函數）。

(i)提取sta文件中的A列，取前100個關鍵詞，並將子話題加上

tempL=[]
testL=[]
tempc=0
for i in osheet["A"]:
    if tempc<100:
        tempL.append(i.value)
        testL.append(i.value)
    else:
        break
    tempc=tempc+1
tempL.append("民主制度")
tempL.append("言論自由")
tempL.append("民主監督")

(ii)將100個關鍵詞，橫向排開

k=0
n=1
e=0
m=0
for i in tempL:
    if k<=103:
        if k<26:
            a=alphabet[k]
            asheet["%s%d" % (a,n)].value=str(i)
        else:
            if m==26:
                m=0
                e=e+1
            b=alphabet[e]
            c=alphabet[m]
            d=b+c
            asheet["%s%d" % (d,n)].value=str(i)
            m=m+1
    else:
        break
    k=k+1

ww.save(‘t2.xlsx‘)

效果如圖：

技術分享圖片

(iii)重新提取帖子的關鍵詞

由於使用關鍵詞與關鍵詞對比，速度快效率高，所以在此重新對原帖進行取關鍵詞操作，並存在L1之中。

wr2=load_workbook(‘biao2.xlsx‘)
#print(wr.sheetnames)
osheet2=wr2.active
print(osheet2.max_row)
L1=[]

for i in osheet2["A"]:
    k=0
    content=str(i.value)
    keywords=jieba.analyse.extract_tags(content,topK=1000)

    L1.append(keywords)

(iv)關鍵詞對比

對比提取後的100個關鍵詞，在每個帖子的關鍵詞列表中是否出現，若出現則標記為1，沒出現則標記為0

count=0
L3=[]
L2=[]
flag=False
for i in L1:
    L2=[]
    for g in testL:
        flag=False
        for j in i:
            if g==j:
                flag=True
        if flag:
            L2.append(1)
        else:
            L2.append(0)
    L3.append(L2)

(v)將各帖子的向量存入表格中

k=0
n=2

for j in L3:
    e=0
    m=0
    for i in j:
        if k<=103:
            if k<26:
                a=alphabet[k]
                asheet["%s%d" % (a,n)].value=i
            else:
                if m==26:
                    m=0
                    e=e+1
                b=alphabet[e]
                c=alphabet[m]
                d=b+c       
                asheet["%s%d" % (d,n)].value=i
                m=m+1
            
        k=k+1
    n=n+1
    k=0

ww.save(‘t2.xlsx‘)

最終效果如圖：
每一行代表原帖的一個向量

技術分享圖片

（2）標註不相關帖子

為了湊齊1000條，還需要500條不相關的帖子。。。可以我翻查語料庫發現。。。

很多“不想關”的帖子實際上是相關的。。。尤其是我的第三個label是“民主監督/腐敗”。而語料庫中含有大料的反腐帖子。這就很麻煩了，還得手工篩選一下吧，把腐敗的相關的篩掉

二、總結反思

代碼方面沒什麽問題，主要是語料比較頭痛

三、接下來的任務

學習SVM/Naive Bayes/Decision Tree分類。先試試吧

Python3 利用openpyxl 以及jieba 對帖子進行關鍵詞抽取 ——向量生成

還得 work 反思 append 字母分享圖片 alpha else 賦值 Python3 利用openpyxl 以及jieba 對帖子進行關鍵詞抽取 ——向量生成 20180417學習筆記、20180421修改一、工作今天中午開了一次小組討論會議，老師旁聽了並

Python3 利用openpyxl 以及jieba 對帖子進行關鍵詞抽取——對抽取的關鍵詞進行詞頻統計

n-2 好處二維返回多條當前記錄 htm IT Python3 利用openpyxl 以及jieba 對帖子進行關鍵詞抽取 ——對抽取的關鍵詞進行詞頻統計 20180413學習筆記一、工作前天在對帖子的關鍵詞抽取存儲後，發現一個問題。我似乎將每個關鍵詞都

利用kibana插件對Elasticsearch進行映射

earch ping 字段 images 日期我們 string ole 根據映射（mapping）映射是創建索引的時候，可以預先定義字段的類型以及相關屬性 Elasticsearch會根據JSON源數據的基礎類型去猜測你想要的字段映射。將輸入的數據變成可搜索的索

利用kibana插件對Elasticsearch進行bool查詢

iba lds 建立 lte must itl post where 但是 #bool查詢#老版本的filtered查詢已經被bool代替#用 bool包括 must should must_not filter來完成，格式如下：#bool:{# "filter":[]

利用java反射機制對方法進行呼叫

轉自：http://blog.csdn.net/coolcoffee168/article/details/5835143 基本步驟：首先獲取Class物件，然後用該物件獲取方法。具體的就看程式碼吧。對照本文最後的結果，會更好的理解反射機制。

JavaScript中利用二叉樹對陣列進行排序

二叉樹和二叉搜尋樹二叉樹中的節點最多隻能有兩個子節點：一個是左側子節點，另一個是右側子節點。二叉搜尋樹(BST)是二叉樹中的一種，但是它只允許在左側節點儲存比父節點小的值，在右側幾點儲存比節點大(或相等)的值。可以利用BST的這種特性，對陣列進行排序： class Node{

在 Perl 中利用 DOM 和 XPath 對 XML 進行有效處理

“文件物件模型（DOM）”是一個與平臺和語言無關的介面，它用於動態訪問和更新 XML 文件的內容、結構和樣式。DOM 定義了一組表示文件的標準介面、一個用於組合這些物件的標準模型和一組用於訪問和操縱它們的標準方法。DOM 是一個“W3C 建議”，這使它成為大家公認的 Web 標準。可以用包括 Perl、

使用ApkTool以及dex2jar對apk進行反編譯-更新異常以及解決方案

使用ApkTool以及dex2jar對apk進行反編譯相關工具下載地址：使用ApkTool對apk進行反編譯以及打包 1.下載並解壓ApkTool 在cmd命令列中進入ApkTool的資料夾（win7系統以上快捷鍵為

利用CImage類對影象進行高斯噪聲生成

課上作業要求利用C裡面的自帶類庫對影象做一個高斯噪聲的生成，記錄一下大概的原理和步驟。首先是對高斯函式的理解這個函式是一個高斯概率密度的分佈表示式，表示為X~N（μ，σ²），其中μ表示均值，σ²表示方差，當μ=0，σ²=1時為標準正態分佈。

銀行金融領域，如何利用資料探勘對客戶進行深入分析？

原文連結： http://www.36dsj.com/archives/2705首先看一下資料探勘在客戶分析中的應用，資料探勘主要應用於兩大領域：客戶智慧和風險管理。客戶智慧分為資料層、挖掘層和營銷層，資料探勘屬於中間這一層，是服務支撐層，為營銷提供支援。資料探勘傳統的一些

利用webstrom以及sftp，supervisor進行遠端除錯node.js

概述開發oj使用lrun進行判題時間的控制和檢測。lrun使用了linux特有的特性，故只能再linux下執行他，伺服器使用docker部署的話也是需要linux環境。之前做實驗的時候是採取的手動上傳手動重啟node，開發效率非常之低。現在通過這webs

如何利用deeplearning4j中datavec對影象進行處理

NativeImageLoader Labelloader = new NativeImageLoader(112, 112, 3

對引數進行排序後拼接key，進行sha1加密，再對sha1進行MD5加密，生成sign驗籤

Map<String,Object> map = new HashMap<String,Object>(); map.put("phone",phone); map.put("type",type); String sign = SignForIns

資料處理-------利用jieba對資料集進行分詞和統計頻數

一，對txt檔案中出現的詞語的頻數統計再找出出現頻率多的二，程式碼： import re from collections import Counter import jieba def cut_word(datapath): with open(

C語言：利用指標編寫程式,定義一個3行3列的二維陣列,並在程式中對其進行賦值,陣列元素的型別不限,輸出該二維陣列以及各行的均值

題目來源：大工慕課連結作者：Caleb Sung 題目要求利用指標編寫程式,定義一個3行3列的二維陣列,並在程式中對其進行賦值,陣列元素的型別不限,輸出該二維陣列以及各行的均值,各行

【自然語言處理入門】01：利用jieba對資料集進行分詞，並統計詞頻

一、基本要求使用jieba對垃圾簡訊資料集進行分詞，然後統計其中的單詞出現的個數，找到出現頻次最高的top100個詞。二、完整程式碼 # -*- coding: UTF-8 -*- fr

Python 的切片操作以及利用步長對序列進行倒序取值

切片操作：對於具有序列結構的資料來說，切片操作的方法是：consequence[start_index: end_index: step]。 start_index：表示是第一個元素物件，正索引位置預設為0；負索引位置預設為 -len(consequence) e

python3 簡單實現從csv文件中讀取內容，並對內容進行分類統計

tmp spa writer ict 打開文件 while 類型 spl blog 新手python剛剛上路，在實際工作中遇到如題所示的問題，嘗試使用python3簡單實現如下，歡迎高手前來優化import csv #打開文件，用with打開可以不用去特意關閉file了

利用sklearn的LabelEncoder對標簽進行數字化編碼

spa att sed read guide example log cat lib from sklearn.preprocessing import LabelEncoder def gen_label_encoder(): labels =

利用ab壓力工具對服務器進行壓力測試

因此 win request 過大 .exe http cond don bin 假如我們需要對http://letv.com進行壓力測試，指定請求總數為100，並發用戶數為10，我們可以以下面的方式進行測試 $ ab -n 100 -c 10 http://letv

Python3 利用openpyxl 以及jieba 對帖子進行關鍵詞抽取 ——向量生成