Pandas結合Jieba提取xlsx表格檔案高頻詞彙

阿新 • • 發佈：2019-01-25

import pandas as pd
import jieba.analyse


def sort_key(keylist):
    '''
    高頻關鍵詞排序
    :param keylist: 關鍵詞列表
    :return:
    '''
    percentage_number = int(keylist.count()*percentage)
    keyword_string = keylist.to_string()
    res = jieba.analyse.extract_tags(keyword_string,
                                     percentage_number)
    print(percentage_number, res)
    return 
 res


def write_excel(res_ls, sheet_name, writer):
    df = pd.DataFrame(res_ls)
    df.to_excel(writer, sheet_name)


def run(sheet_name, writer):
    tb = pd.read_excel("D:/title.xls", sheet_name)
    res_ls = {}
    length = 0
    for i in tb:
        res_ls[i] = sort_key(tb.get(i))
        if len(res_ls[i]) > length:
            length = len(res_ls[i])

    # 補齊佇列，長度保持一致 

    for i in res_ls:
        i_len = len(res_ls.get(i))
        if i_len < length:
            res_ls[i].extend([""] * (length - i_len))

    write_excel(res_ls, sheet_name, writer)


# 百分比
percentage = 0.15
writer = pd.ExcelWriter("d:/foo.xlsx")
ls = [u"表一", u"表二", u"表三", u"表四", u"表五"]
for x in ls:
    run(x, writer)
writer.save()

Pandas結合Jieba提取xlsx表格檔案高頻詞彙

import pandas as pd import jieba.analyse def sort_key(keylist): ''' 高頻關鍵詞排序 :param keyl

使用load data方式將xlsx表格百萬行檔案快速匯入mysql中

目錄一、需求二、解決方法三、三種方式的實現 navicat直接匯入 python指令碼 load data命令四、三種方式效率比較五、總結 navicat直接匯入我是同時使用Navicat和mysql-front作為視覺化介面的，

pandas筆記1 --pandas處理mat表格檔案

關於Python處理.mat表格檔案參考：讀入mat: http://www.cnblogs.com/cymwill/p/8331002.html dataframe常見操作: https://blog.csdn.net/xtfge0915/article/details/52938

c#讀取生成excel表格檔案xls、xlsx格式檔案

全棧工程師開發手冊（作者：欒鵬） c#儲存生成excel表格格式xls、xlsx格式的檔案需要電腦安裝對應版本的office，並且在專案中引用excel 測試程式碼 static void Main() { List<

python提取分析表格數據

row ble dex 工作 pre nco gsl () ger #/bin/python3.4# -*- coding: utf-8 -*-import xlrddef open_excel(file="file.xls"): try: data =

Python提取Excel表格資料並用DataFrame處理求平均值輸出

Python讀取Excel檔案取平均數 1.檔案讀取下面我們將對這個excel檔案進行讀取 import xlrd #xlrd是excel檔案讀取庫只讀寫 data = xlrd.open_workbook('a.xlsx

從零擼美團Android(一) - 統一管理 Gradle 依賴提取到單獨檔案中

前言從今天開始帶大家一起從零開始擼一個美團Android版App。【從零擼美團】這個專題將持續更新，用以詳細記錄分享開發過程，歡迎關注。原始碼地址：github.com/cachecats/L… 專題的第一篇文章本來想按慣例講專案介紹、整體架構、程式碼規範之類的。但今天有點躁動，不想講那麼正經

pandas.read_csv——分塊讀取大檔案

訪問本站觀看效果更佳 read_csv中有個引數chunksize，通過指定一個chunksize分塊大小來讀取檔案，返回的是一個可迭代的物件TextFileReader，IO Tools 舉例如下： In [138]: reader = pd.read_table('

pandas通過索引提取dataframe的行

一、假設有這樣一個原始dataframe 二、提取索引（已經做了一些操作將Age為NaN的行提取出來併合併為一個dataframe，這裡提取的是該dataframe的索引，道理和操作是相似的，提取的程式碼沒有貼上去是為了不顯得太繁雜讓讀者看著繁瑣） >>> in

Python 讀取xlsx表格

#！user/bin/python3 #coding:utf-8 import xlrd file = '這裡填要讀取的檔案的絕對路徑' wb = xlrd.open_workbook(filename=file) print(u'表格中Sheet為：',wb.sheet_names())

用python提取PDF表格內容儲存到excel

一提取pdf方法介紹任務是用python提取PDF裡的表格檔案到excel裡面去。做為一個學了一個周python的人來說當然像嘗試一下看能不能做到，事實證明是可以的只是可能程式碼有點爛。。。。。。樣本大概是這樣的首先網上查一下用python處

統一管理 Gradle 依賴提取到單獨檔案中

前言從今天開始帶大家一起從零開始擼一個美團Android版App。【從零擼美團】這個專題將持續更新，用以詳細記錄分享開發過程，歡迎關注。專題的第一篇文章本來想按慣例講專案介紹、整體架構、程式碼規範之類的。但今天有點躁動，不想講那麼正經深奧的東西，定的最

python3使用pandas模組的to_csv寫入csv檔案亂碼

在python3使用pandas模組的to_csv寫入csv檔案時會出現亂碼通過部分程式碼說明更直接一點： //引入pandas from pandas import DataFrame as test from pandas import DataFrame as test //寫入

SpringBoot結合commons-fileupload上傳檔案

首先pom檔案引入相關依賴: <dependency> <groupId>commons-fileupload</groupId> <artifactId>commons-fileupload</artifac

js-xlsx實現檔案匯出、下載（excel）

記錄一下近期使用js-xlsx的一些經驗真正的.xls\.xlsx檔案，就算是空白的其實是包含了一些內容的所以並不能直接像寫入txt一樣直接搞一個file往裡面把資料寫入就完了現在網上查得到匯出excel的一些方法： 1、在IE上使用ActiveXObject匯出檔案由於我們客戶端是基於

js-xlsx 實現檔案的匯入匯出。

一、前言最近做的一個基於html5的移動APP,其中一功能的實現基於對excel表格資料的讀入讀出。流程是先匯入檔案，存到相關的資料庫中（專案不是用localStorage,本次只是用來演示），再從資料庫取出資料匯出到檔案中，因此想要利用html+js實現。通過搜尋github確定了利

如何使用Office2003來開啟Docx、xlsb、xlsx等檔案

office 2003開啟2007版本的Docx檔案，全是亂碼。只需要安裝一個補丁即可，名稱為O2007Cnv.exe，連結為：注意安裝之後重啟機器，問題基本就解決了，現在就可以識別出docx、docm格式的Word 2007文件，pptx、pptm、potx、potm、ppsx、ppsm格式的P

VBA/VBScript提取Word(*.doc)檔案中包含的圖片(照片)

要處理的人事簡歷表是典型的Word文件，其中一人一份doc，裡面包含有個人的照片，如果要把裡面的照片複製出來就比較麻煩了，一般手動的做法是選擇檔案另存為，儲存型別選擇“網頁（*.htm; *.html）”，這樣就會另存為網頁形式，同時會有個以檔名開頭，以.files結尾的資料夾，點選進去就可以看到Word

python模組：xlsxwriter和xlrd相結合讀取、寫入excel檔案

python模組簡單說明： xlsxwriter：負責寫入資料 xlrd：負責讀取資料 xlsxwriter 官方文件：http://xlsxwriter.readthedocs.org 本例項是剛寫出來的，目前比較粗糙。寫這例項主要是結合平時工作內容，把

java 通過poi相容.xls和.xlsx表格匯入

需要的jar: commons-collections4-4.1.jar poi-3.17.jar poi-ooxml-3.17.jar poi-ooxml-schemas-3.17.jar xmlbeans-2.6.0.jar 可以到maven倉庫下載 import

Pandas結合Jieba提取xlsx表格檔案高頻詞彙

相關推薦