數據挖掘——文本挖掘-關鍵字提取

阿新 • • 發佈：2018-09-22

得到 port erro 可能性路徑 rac 權重 trac style

基於jieba包的自動提取

　　關鍵方法：jieba.analyse.extract_tags(content,topK=n)

　　具體思路：通過jieba包自帶的extract_tags方法，在遍歷讀取文件內容時，獲得每篇文檔前n個關鍵字

　使用的包：　

import os
import codecs
import pandas as pd
import jieba
import jieba.analyse

　過程：

‘‘‘定義變量
文件路徑/文件內容/關鍵字（5個）‘‘‘
filepaths = []
contents =[]
tag1 = []
tag2 = []
tag3 = []
tag4  
= []
tag5 = []

#遍歷文件，同時得到關鍵字
for root, dirs, files in os.walk(
        r‘path‘):
    for name in files:
        filepath = root + ‘\\‘ +name  #根目錄加文件名構成文件路徑
        f = codecs.open(filepath,‘r‘,‘utf-8‘)  #根據文件路徑以只讀的形式打開文件
        content = f.read().strip()  #將文件內容傳入content變量
        f.close() #關閉文件 

        tags = jieba.analyse.extract_tags(content,topK=5) #根據文件內容獲取前5個關鍵字(出現次數最多)
        filepaths.append(filepath) #得到文件路徑的集合
        contents.append(content) #得到文件內容的集合
        tag1.append(tags[0]) 
        tag2.append(tags[1])
        tag3.append(tags[2])
        tag4.append(tags[3])
        tag5.append(tags[ 
4])

tagDF = pd.DataFrame({
        ‘文件路徑‘:filepaths,
        ‘文件內容‘:contents,
        ‘關鍵詞1‘:tag1,
        ‘關鍵詞2‘:tag2,
        ‘關鍵詞3‘:tag3,
        ‘關鍵詞4‘:tag4,
        ‘關鍵詞5‘:tag5})

　　最終得到包含文件路徑，文件內容，和每篇5個關鍵字的數據框

基於TF-IDF算法的手動提取

　　關鍵：基於TF-IDF原理，引入分詞權重的概念

　　詞頻（TF）
　　逆文檔頻率（IDF）：詞的權重，即詞的重要程度
　　TF-IDF:權衡某個分詞是否關鍵詞的指標，值越大，是關鍵字的可能性就越大

　　TF-IDF的計算公式：
　　TF=該詞在文檔中出現的次數
　　IDF=log[文檔總數/（包含該詞的文檔數+1）]
　　TF-IDF = TF*IDF

　　Tips：只提取中文關鍵字，用正則表達式判斷分詞是否為中文

　　具體實現：

　　#創建語料庫，導入停用詞

　　#獲得分詞結果

import re
zh = re.compile(u‘[\u4e00-\u9fa5]+‘)    
import jieba
segments = []
filepath = []
#導入停用詞    
stopwords = pd.read_csv(r‘path‘,encoding=‘utf-8‘,index_col=False)

for index, row in corpos.iterrows(): 
    filePath = row[‘filePath‘]  
    fileContent = row[‘fileContent‘] 
    segs = jieba.cut(fileContent)  
    for seg in segs:
        if zh.search(seg):  #只匹配中文分詞
             if (seg not in stopwords.stopword.values) and (len(seg.strip())>1): #取非停用詞和長度>1的詞
                 segments.append(seg)
                 filepath.append(filePath)

segmeng_DF = pd.DataFrame({
        ‘segment‘: segments,
        ‘filePath‘: filepath})

　　#詞頻統計

import numpy as np
segcount = segmeng_DF.groupby(by=[‘filePath‘,‘segment‘
                    ])[‘segment‘].agg({‘詞頻‘:np.size}
                    ).reset_index().sort_values(by=[‘詞頻‘],ascending=False) 
segcount = segcount[segcount.詞頻 > 1] #只取詞頻大於1的分詞

　　#詞頻向量化運算　　

TF =segcount.pivot_table(index=‘filePath‘,
                         columns=‘segment‘,
                         values=‘詞頻‘,
                         fill_value=0)
TF.columns #列名是各篇文章的分詞集合

　　#根據公式分別得到IDF和TF-IDF的值

def hanlder(x):
    return (np.log2(len(corpos) / (np.sum(x>0)+1)))

IDF = TF.apply(hanlder)  #結果是各分詞的權重

TF_IDF = pd.DataFrame(TF*IDF)

TF_IDF.columns #列名是各篇文章的分詞集合
TF_IDF.index #索引是文件路徑

　　#獲取關鍵字

tag1 = []
tag2 = []
tag3 = []
tag4 = []
tag5 = []

for filePath in TF_IDF.index:
    tagis = TF_IDF.loc[filePath].sort_values(ascending=False)[:5].index
    tag1.append(tagis[0]) 
    tag2.append(tagis[1])
    tag3.append(tagis[2])
    tag4.append(tagis[3])
    tag5.append(tagis[4])

　　#最後得到包含文件路徑，文件內容，和每篇5個關鍵字數據框

數據挖掘——文本挖掘-關鍵字提取

得到 port erro 可能性路徑 rac 權重 trac style 基於jieba包的自動提取　　關鍵方法：jieba.analyse.extract_tags(content,topK=n) 　　具體思路：通過jieba包自帶的extract_tags方法，在遍

數據挖掘——文本挖掘

lse 一個數邏輯 class tro csv 單詞 taf edt 文本挖掘是將文本信息轉化為可利用的數據的知識。　　第一步：創建“語料庫” 語料庫（Corpus）是我們要分析的所有文檔的集合。實現邏輯：　　將各文本文件分類放置在一個根目錄下，通過讀取根目錄下所有

Tensorflow的TextCNN在搜狗新聞數據的文本分類

否則 tex 實驗室 __name__ 平衡 info 編輯 utf-8 blog 開發環境： python環境：python3 編譯器：pycharm 文本編輯器：Notepad++ 開發框架：Tensorflow 系統環境：Windows10 數據集

NLPIR智能語義挖掘文本大數據深層意義

平臺過程 ava 客戶生活方式廣泛趨勢又一情感　　當今,信息技術為人類步入智能社會開啟了大門,帶動了互聯網、物聯網、電子商務、現代物流、網絡金融等現代服務業發展,催生了車聯網、智能電網、新能源、智能交通、智能城市、高端裝備制造等新興產業發展.現代信息技術正成為

機器學習文本挖掘之spherical k-means algorithm初識

ise align lar global product com matrix ati hms Spherical K-Means 法によるクラスタ分析の実験検証 1.1研究背景、目的：インターネットの普及などにより、膨大なデータの中からデータ間の関係を見つけ出したり

自動備份數據庫文件腳本

lin mysql- 腳本 time host reat service nbsp cron vim usr/bin/zdbf.sh #!/bin/sh # Database infoDB_USER="root"DB_PASS="password"DB_HOST="ip"

c# 連接本地的sdf數據庫文件

oid GridView eve adapt 數據 pub cti pan object using System;using System.Collections.Generic;using System.ComponentModel;using System.Data;

sql server 2008 r2 無法定位到數據庫文件目錄

src logs 子目錄數據屬性添加文件目錄無法定位 ges 像這樣，選擇數據庫文件時，無法定位到文件夾目錄，子目錄下的都不顯示。明明選擇的這個文件夾裏還有很多子文件夾，卻顯示不了。解決方法：在此文件夾上右擊，屬性-安全添加紅框中的用戶就可以

C語言之文件操作06——寫數據到文本文件遇0停止

語言 text null white ont .net main fopen scan //文件 /* =============================================================== 題目：輸入10個籃球運動員的

linux定時備份mysql數據庫文件

設定 mysql 密碼 mysql數據庫 lin dsm 寫入退出 rac 1。設定定時器：終端敲入：crontab -e命令 2，然後寫入 00 23 * * * /home/db_bak_file/dbbak.sh >>/home/db_

Hadoop NameNode元數據相關文件目錄解析

沒有 hadoop href dfs com 訪問控制相關 itl 大量在《Hadoop NameNode元數據相關文件目錄解析》文章中提到NameNode的$dfs.namenode.name.dir/current/文件夾的幾個文件： 1 current

mysqldump備份指定mysql數據庫腳本

mysql 備份腳本 mysqldump 前幾天有朋友讓幫忙寫一個mysql數據備份腳本，於是就有了下文通過mysqldump命令備份數據庫的腳本，貼出來跟大家交流，若有問題，請指正，謝謝。實現功能： 1 備份指定的數據庫 2 刪除指定天數前的備份文件，默認設定了7天#!/

MongoDB數據庫文檔操作

數據庫插入文檔　　要將數據插入到 MongoDB 集合中，需要使用 MongoDB 的 insert()或save()方法，還有insertOne()或insertMany()方法【insert()】　　insert()命令的基本語法如下db.COLLECTION_NAME.insert(document)　

Dom4j解析語音數據XML文檔（註意ArrayList多次添加對象，會導致覆蓋之前的對象）

value exc 根節點屬性 repl 叠代器信息 ledir gettext 今天做的一個用dom4j解析聲音文本的xml文檔時，我用ArrayList來存儲每一個Item的信息，要註意ArrayList多次添加對象，會導致覆蓋之前的對象；解決方案是在最後將對象添加

Java數據存入文件和讀取文件

讀取節點流 bsp iou iter bject 應該 tput 使用　　在Java程序開發過程中我們發現並不能夠讓程序多次運行時獲得上一次關閉程序前的運行結果——我們沒有將運行的結果加以保存。這個時候我們就要找到Java操作讀取數據的方法（以操作文件為例）：Java中

Android開發系列（十七）：讀取assets文件夾下的數據庫文件

pack 取數 code ada tracking 編寫數據庫 sdn where 在做Android應用的時候，不可避免要用到數據庫。可是當我們把應用的apk部署到真機上的時候，已經創建好的數據庫及其裏邊的數據是不能隨著apk一起安裝到真機上的。（PS:這篇

android 打開 res raw目錄中數據庫文件

輸入流目錄 sqlite數據庫資源 qlite 庫文件 sqlit 獲得 and 韓夢飛沙韓亞飛 [email protected]/* */ yue31313 han_meng_fei_sha 安卓不能直接打開 res raw 中的數據庫

自動備份mysql數據庫腳本

linux腳本#!/bin/bash#auto backup any one or all db#by zhaoyanfeng#2017-8-15 11:17:54#defined ALL_DB=`mysql -uroot -p123456 -e "show databases;"| grep -v Data

Delphi 數據、文件常用函數

覆蓋初始化指定順序 set not 線程安全幫助 right 一、數據類型轉換函數　　在我們編寫程序當中，根據不同情況，會使用到多種數據類型。當要對不同的類型進行操作時，必須要將不同的類型轉換成同樣的類型。因此熟練地掌握數據類型的轉換是非常重要的。　　1.Floa

2. 數據庫文件配置與簡單操作 Model / M()

庫文件用戶 index 調試 nbsp onf model 項目 mysq 官方文檔說明位置： Thinkphp/Conf/convention.php 內容說明如下: ‘DB_TYPE‘ => ‘‘, // 數

數據挖掘——文本挖掘-關鍵字提取

相關推薦