中文文字的關鍵字提取

阿新 • • 發佈：2018-11-30

基於 TF-IDF 演算法的關鍵詞抽取

import jieba.analyse
sentence  = "人工智慧（Artificial Intelligence），英文縮寫為AI。它是研究、開發用於模擬、延伸和擴充套件人的智慧的理論、方法、技術及應用系統的一門新的技術科學。人工智慧是電腦科學的一個分支，它企圖瞭解智慧的實質，並生產出一種新的能以人類智慧相似的方式做出反應的智慧機器，該領域的研究包括機器人、語言識別、影象識別、自然語言處理和專家系統等。人工智慧從誕生以來，理論和技術日益成熟，應用領域也不斷擴大，可以設想，未來人工智慧帶來的科技產品，將會是人類智慧的“容器”。人工智慧可以對人的意識、思維的資訊過程的模擬。人工智慧不是人的智慧，但能像人那樣思考、也可能超過人的智慧。人工智慧是一門極富挑戰性的科學，從事這項工作的人必須懂得計算機知識，心理學和哲學。人工智慧是包括十分廣泛的科學，它由不同的領域組成，如機器學習，計算機視覺等等，總的說來，人工智慧研究的一個主要目標是使機器能夠勝任一些通常需要人類智慧才能完成的複雜工作。但不同的時代、不同的人對這種“複雜工作”的理解是不同的。2017年12月，人工智慧入選“2017年度中國媒體十大流行語”。"
# sentence：待提取的文字語料；
# topK：返回 TF/IDF 權重最大的關鍵詞個數，預設值為 20；
# withWeight：是否需要返回關鍵詞權重值，預設值為 False；
# allowPOS：僅包括指定詞性的詞，預設值為空，即不篩選。
keywords = "  ".join(jieba.analyse.extract_tags(sentence , topK=20, withWeight=False, allowPOS=()))
print(keywords)
keywords =(jieba.analyse.extract_tags(sentence , topK=10, withWeight=True, allowPOS=(['n','v'])))
print(keywords)

基於 TextRank 演算法進行關鍵詞提取

import jieba.analyse
sentence  = "人工智慧（Artificial Intelligence），英文縮寫為AI。它是研究、開發用於模擬、延伸和擴充套件人的智慧的理論、方法、技術及應用系統的一門新的技術科學。人工智慧是電腦科學的一個分支，它企圖瞭解智慧的實質，並生產出一種新的能以人類智慧相似的方式做出反應的智慧機器，該領域的研究包括機器人、語言識別、影象識別、自然語言處理和專家系統等。人工智慧從誕生以來，理論和技術日益成熟，應用領域也不斷擴大，可以設想，未來人工智慧帶來的科技產品，將會是人類智慧的“容器”。人工智慧可以對人的意識、思維的資訊過程的模擬。人工智慧不是人的智慧，但能像人那樣思考、也可能超過人的智慧。人工智慧是一門極富挑戰性的科學，從事這項工作的人必須懂得計算機知識，心理學和哲學。人工智慧是包括十分廣泛的科學，它由不同的領域組成，如機器學習，計算機視覺等等，總的說來，人工智慧研究的一個主要目標是使機器能夠勝任一些通常需要人類智慧才能完成的複雜工作。但不同的時代、不同的人對這種“複雜工作”的理解是不同的。2017年12月，人工智慧入選“2017年度中國媒體十大流行語”。"
result = "  ".join(jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')))
print(result)
# 只需要名詞和動詞
result = "  ".join(jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('n','v')))
print(result)

結果：
智慧人工智慧機器人類研究技術模擬包括科學工作領域理論計算機年度需要語言相似方式做出心理學
智慧人工智慧機器人類技術模擬包括科學理論計算機領域年度需要心理學資訊語言識別帶來過程延伸

基於 LDA 主題模型進行關鍵詞提取

# 引入庫檔案
import jieba.analyse as analyse
import jieba
import pandas as pd
from gensim import corpora, models, similarities
import gensim
import numpy as np
import matplotlib.pyplot as plt
# % matplotlib inline
# 設定檔案路徑
file_desc = "".join(["D://input_py//day03//",'car.csv'])
stop_words = "".join(["D://input_py//day03//",'stopwords.txt'])
# 定義停用詞
stopwords=pd.read_csv(stop_words,index_col=False,quoting=3,sep="\t",names=['stopword'], encoding='utf-8')
stopwords=stopwords['stopword'].values
# 載入語料
df = pd.read_csv(file_desc, encoding='utf-8')
# 刪除nan行
df.dropna(inplace=True)
lines=df.content.values.tolist()
# 開始分詞
sentences=[]
for line in lines:
    try:
        segs=jieba.lcut(line)
        segs = [v for v in segs if not str(v).isdigit()]#去數字
        segs = list(filter(lambda x:x.strip(), segs))   #去左右空格
        segs = list(filter(lambda x:x not in stopwords, segs)) #去掉停用詞
        sentences.append(segs)
    except Exception:
        print(line)
        continue
# 構建詞袋模型
dictionary = corpora.Dictionary(sentences)
corpus = [dictionary.doc2bow(sentence) for sentence in sentences]
# lda模型，num_topics是主題的個數，這裡定義了5個
lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=10)
# 我們查一下第1號分類，其中最常出現的5個詞是：
print(lda.print_topic(1, topn=5))
# 我們列印所有5個主題，每個主題顯示8個詞
for topic in lda.print_topics(num_topics=10, num_words=8):
    print(topic[1])

#顯示中文matplotlib
plt.rcParams['font.sans-serif'] = [u'SimHei']
plt.rcParams['axes.unicode_minus'] = False
# 在視覺化部分，我們首先畫出了九個主題的7個詞的概率分佈圖
num_show_term = 8 # 每個主題下顯示幾個詞
num_topics  = 10
for i, k in enumerate(range(num_topics)):
    ax = plt.subplot(2, 5, i+1)
    item_dis_all = lda.get_topic_terms(topicid=k)
    item_dis = np.array(item_dis_all[:num_show_term])
    ax.plot(range(num_show_term), item_dis[:, 1], 'b*')
    item_word_id = item_dis[:, 0].astype(np.int)
    word = [dictionary.id2token[i] for i in item_word_id]
    ax.set_ylabel(u"概率")
    for j in range(num_show_term):
        ax.text(j, item_dis[j, 1], word[j], bbox=dict(facecolor='green',alpha=0.1))
plt.suptitle(u'9個主題及其7個主要詞的概率', fontsize=18)
plt.show()

在這裡插入圖片描述

文字關鍵字提取演算法歸納

關鍵字提取演算法 1、基於統計特徵的關鍵詞提取演算法 TF-IDF 2、基於詞圖模型的關鍵詞抽取演算法 PageRank TextRank演算法 Rake 3、基於主題模型的關鍵詞抽取

中文文字的關鍵字提取

基於 TF-IDF 演算法的關鍵詞抽取 import jieba.analyse sentence = "人工智慧（Artificial Intelligence），英文縮寫為AI。它是研究、開發用於模擬、延伸和擴充套件人的智慧的理論、方法、技術及應用系統的一門新的技術科學。人工智慧是

文字挖掘----基於OCR的文件關鍵字提取

前言緊急新增：有人反饋看不懂。那是因為沒有看姐妹篇，《你有沒有想到，這樣的觀點挖掘引擎？》。請先閱讀本文，再繼續看下去！做了一段時間的OCR，把大量的圖片、PDF處理成了文字。請注意：這些文字在網際網路上屬於稀有資源。這些文字以前都放在一個盒子裡，如今，用OCR做鑰匙開

Python3——文字標題關鍵字提取_jieba分詞+sklearn計算tf-idf詞語權重

功能：實現文字標題關鍵字的提取由於jieba自身的jieba.analyse.set_idf_path方法依賴於idf.txt.big的逆文件率語料庫，因此本例採用sklearn轉換詞向量的方法，依靠包含的文件來計算TF-IDF的值。 Step1: 匯入相關工具包

Perl從文字檔案中按關鍵字提取資料

#!/usr/bin/perl -w #require "convertword.pl"; use strict; use warnings; use Cwd; use File::Spec::Functions qw( catfile ); # 轉換格式 print "轉

Python處理中文文字字元時提取某個漢字或字元的方法

最近學了python扒取網頁論壇資訊，其實python在處理字串和文字時，其封裝好的函式功能很強悍的，何以很方便的呼叫處理資訊。廢話不多說，我在爬取論壇資訊時遇到一個回帖資訊，上邊二樓及以下樓層回帖資訊上標註比如“2樓網友回覆”“3樓網友回覆”等等，我要獲取樓層數，說白了就睡獲取第一個字元，然後轉換為int型

模擬拷貝文件動畫顯示編程只需兩行中文文字即可完成

gif動畫 ref 講師 window cto color tro 拷貝文件 windows 模擬拷貝文件動畫顯示編程只需兩行中文文字即可完成，初學編程人員一看就會的編程。windows系統中復制文件時的那個GIF動畫，拷貝文件時顯示文件加的動畫。資料來源於【王西猛講師的

數據挖掘——文本挖掘-關鍵字提取

得到 port erro 可能性路徑 rac 權重 trac style 基於jieba包的自動提取　　關鍵方法：jieba.analyse.extract_tags(content,topK=n) 　　具體思路：通過jieba包自帶的extract_tags方法，在遍

數據挖掘——關鍵字提取—sklearn的實際應用

輸出 xtra dft 關鍵字 nump numpy .data join span 前面的步驟都相似 #構建語料庫 #使用jieba包進行分詞，並將分詞結果用空格分隔後再傳回分詞列表 zh = re.compile(u‘[\u4e00-\u9fa5]+‘) #中文

使用機器學習完成中文文字分類

資料集來自七月線上練習 import jieba import pandas as pd import random from sklearn.model_selection import train_test_split #劃分訓練/測試集 from sk

判斷中文文字編碼格式是gbk還是utf-8的一種簡單方式

import java.io.*; public class charsetTest { public static String charsetType(String fileName) throws IOException { BufferedReader reader =

文字關鍵詞提取演算法

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

mongodb中文文字資料（新聞評論）預處理程式碼（python+java）

中文文字資料預處理 Mongodb資料匯出到txt文件將檔案按行寫入陣列文字批量修改（加字尾等） Mongodb資料匯出到txt文件 #python # coding=utf-8 from pymongo

文字關鍵詞提取二三事

基於此，我想說的是，雖然關鍵詞提取的演算法很多，也很花哨，但是思路比較簡單，應當在寫Paper之前，或者開發技術應用之前，做好技術定位。另外，幾乎沒有論文回答最基礎的一個問題，什麼是關鍵詞？為什麼某些詞應當被提取出來給閱讀者看而另外一些詞應當忽略？哪些詞應當展示給使用者看？太多研究關注演算法的精度和

使用OCR文字識別軟體將圖中文字識別提取出來的方法

　　有時候我們上網看見了一些文字圖片，上面的內容自己很喜歡，想要將文字儲存下來，但是大家都知道圖片上面的文字是不可以直接進行復制貼上的，那這時候就需要識別提取圖中文字了，具體怎樣去操作呢？下面小編將在文字識別軟體中為大家講解下具體的操作方法。　　使用工具：迅捷OCR文字識別軟體　　步驟一、首先需要將文

使用OCR文字識別軟件將圖中文字識別提取出來的方法

RoCE 分享方便圖片保存自己上網步驟 ffffff 右下角有時候我們上網看見了一些文字圖片，上面的內容自己很喜歡，想要將文字保存下來，但是大家都知道圖片上面的文字是不可以直接進行復制粘貼的，那這時候就需要識別提取圖中文字了，具體怎樣去操作呢？下面小編將在文字識

中文文字分類

將文字進行分類是自然語言處理當中最主要的工作之一，本文處理很重要的一項工作就是對文字進行向量化，本文不做詳細的介紹，只是採用TF-IDF的方法對文字進行向量化，然後分別採用SVM, Bayes, RandomForest

[python] jieba 模組 -- 給中文文字分詞

在文字處理時，英文文字的分詞一直比中文文字要好處理許多。因為英文文字只需要通過空格就可以分割，而中文的詞語往往就很難從句子中分離出來。這種時候我們往往需要一個“詞典”來實現分詞，而尋找“詞典”又是件非常麻煩的事。不過， python 強大的第三方模組中早有了解決方案。在 PyPI 上面搜尋“中

【NLP】【三】jieba原始碼分析之關鍵字提取（TF-IDF/TextRank）

【一】綜述利用jieba進行關鍵字提取時，有兩種介面。一個基於TF-IDF演算法，一個基於TextRank演算法。TF-IDF演算法，完全基於詞頻統計來計算詞的權重，然後排序，在返回TopK個詞作為關鍵字。TextRank相對於TF-IDF，基本思路一致，也是基於統計的思想，只不過其計算詞的權

Developing DataBase Applications Using MySQL Connector/C++ 中文文字

Developing DataBase Applications Using MySQL Connector/C++ 中文文字 by grayondream 翻譯自mysql Connector C++幫助文件[http://download.csdn.net/detail/mi

中文文字的關鍵字提取

基於 TF-IDF 演算法的關鍵詞抽取

基於 TextRank 演算法進行關鍵詞提取

基於 LDA 主題模型進行關鍵詞提取

相關推薦