基於TextRank提取關鍵詞、關鍵短語、摘要

阿新 • • 發佈：2018-02-23

重要設計沒有次數自動 pager detail utf 大於

一、TextRank原理

TextRank是一種用來做關鍵詞提取的算法，也可以用於提取短語和自動摘要。因為TextRank是基於PageRank的，所以首先簡要介紹下PageRank算法。

1.PageRank算法

　　PageRank設計之初是用於Google的網頁排名的，以該公司創辦人拉裏·佩奇（Larry Page）之姓來命名。Google用它來體現網頁的相關性和重要性，在搜索引擎優化操作中是經常被用來評估網頁優化的成效因素之一。PageRank通過互聯網中的超鏈接關系來確定一個網頁的排名，其公式是通過一種投票的思想來設計的：如果我們要計算網頁A的PageRank值（以下簡稱PR值），那麽我們需要知道有哪些網頁鏈接到網頁A，也就是要首先得到網頁A的入鏈，然後通過入鏈給網頁A的投票來計算網頁A的PR值。這樣設計可以保證達到這樣一個效果：當某些高質量的網頁指向網頁A的時候，那麽網頁A的PR值會因為這些高質量的投票而變大，而網頁A被較少網頁指向或被一些PR值較低的網頁指向的時候,A的PR值也不會很大，這樣可以合理地反映一個網頁的質量水平。那麽根據以上思想，佩奇設計了下面的公式：

技術分享圖片

該公式中，Vi表示某個網頁，Vj表示鏈接到Vi的網頁（即Vi的入鏈），S(Vi)表示網頁Vi的PR值，In(Vi)表示網頁Vi的所有入鏈的集合,Out(Vj)表示網頁，d表示阻尼系數，是用來克服這個公式中“d *”後面的部分的固有缺陷用的：如果僅僅有求和的部分，那麽該公式將無法處理沒有入鏈的網頁的PR值，因為這時，根據該公式這些網頁的PR值為0，但實際情況卻不是這樣，所有加入了一個阻尼系數來確保每個網頁都有一個大於0的PR值，根據實驗的結果，在0.85的阻尼系數下，大約100多次叠代PR值就能收斂到一個穩定的值，而當阻尼系數接近1時，需要的叠代次數會陡然增加很多，且排序不穩定。公式中S(Vj)前面的分數指的是Vj所有出鏈指向的網頁應該平分Vj的PR值，這樣才算是把自己的票分給了自己鏈接到的網頁。

2.1 TextRank算法提取關鍵詞

　　TextRank是由PageRank改進而來，其公式有頗多相似之處，這裏給出TextRank的公式：

技術分享圖片

可以看出，該公式僅僅比PageRank多了一個權重項Wji，用來表示兩個節點之間的邊連接有不同的重要程度。TextRank用於關鍵詞提取的算法如下：

　　1)把給定的文本T按照完整句子進行分割，即技術分享圖片

　　2)對於每個句子，進行分詞和詞性標註處理，並過濾掉停用詞，只保留指定詞性的單詞，如名詞、動詞、形容詞，即技術分享圖片，其中 ti,j 是保留後的候選關鍵詞。

　　3)構建候選關鍵詞圖G = (V,E)，其中V為節點集，由（2）生成的候選關鍵詞組成，然後采用共現關系（co-occurrence）構造任兩點之間的邊，兩個節點之間存在邊僅當它們對應的詞匯在長度為K的窗口中共現，K表示窗口大小，即最多共現K個單詞。

　　4)根據上面公式，叠代傳播各節點的權重，直至收斂。

　　5)對節點權重進行倒序排序，從而得到最重要的T個單詞，作為候選關鍵詞。

　　6)由5得到最重要的T個單詞，在原始文本中進行標記，若形成相鄰詞組，則組合成多詞關鍵詞。

2.2 TextRank算法提取關鍵詞短語

　　提取關鍵詞短語的方法基於關鍵詞提取，可以簡單認為：如果提取出的若幹關鍵詞在文本中相鄰，那麽構成一個被提取的關鍵短語。

2.3TextRank生成摘要

　　將文本中的每個句子分別看做一個節點，如果兩個句子有相似性，那麽認為這兩個句子對應的節點之間存在一條無向有權邊。考察句子相似度的方法是下面這個公式：

技術分享圖片

公式中，Si,Sj分別表示兩個句子，Wk表示句子中的詞，那麽分子部分的意思是同時出現在兩個句子中的同一個詞的個數，分母是對句子中詞的個數求對數之和。分母這樣設計可以遏制較長的句子在相似度計算上的優勢。

我們可以根據以上相似度公式循環計算任意兩個節點之間的相似度，根據閾值去掉兩個節點之間相似度較低的邊連接，構建出節點連接圖，然後計算TextRank值，最後對所有TextRank值排序，選出TextRank值最高的幾個節點對應的句子作為摘要。

參考：

https://www.cnblogs.com/xueyinzhe/p/7101295.html

http://blog.csdn.net/u013041398/article/details/52473994

二、包安裝

sudo pip install textrank4zh

三、提取關鍵詞、關鍵短語、摘要

text = "xxxxxx"  # text = codecs.open(text_file, "r", "utf-8").read()

tr4w = TextRank4Keyword()
tr4w.analyze(text=text, window=5, lower=True)

print "關鍵詞："
for item in tr4w.get_keywords(num=20, word_min_len=1):
    print item.word, item.weight

print "關鍵短語：\n", ", ".join(tr4w.get_keyphrases(keywords_num=20, min_occur_num=2))

tr4s = TextRank4Sentence()
tr4s.analyze(text=text, lower=True, source="all_filters")

print "摘要："
for item in tr4s.get_key_sentences(num=3):
    print item.index, item.weight, item.sentence   # index是語句在文本中位置，weight是權重

參考：

letiantian/TextRank4ZH: 從中文文本中自動提取關鍵詞和摘要

實踐篇：基於TFIDF和TextRank的關鍵詞提取

基於TextRank提取關鍵詞、關鍵短語、摘要

重要設計沒有次數自動 pager detail utf 大於一、TextRank原理 TextRank是一種用來做關鍵詞提取的算法，也可以用於提取短語和自動摘要。因為TextRank是基於PageRank的，所以首先簡要介紹下PageRank算法。 1.Pag

基於TextRank提取關鍵詞、關鍵短語、摘要

基於TextRank提取關鍵詞、關鍵短語、摘要

window下執行緒同步之（Critical Sections（關鍵程式碼段、關鍵區域、臨界區域)----轉載

FE之DR之線性降維：LDA&PCA演算法相關論文、主要思路、關鍵步驟、程式碼實現等相關配圖之詳細攻略

ML之Clustering之普聚類演算法：普聚類演算法的相關論文、主要思路、關鍵步驟、程式碼實現等相關配圖之詳細攻略

短語、控制代碼、素短語、最左素短語

短語、直接短語、控制代碼、素短語

編譯原理：素短語、短語、直接短語、控制代碼的基本概念

一篇文了解DevOps：從概念、關鍵問題、興起到實現需求

編譯原理：短語、直接短語、控制代碼、素短語

9. HanLP《自然語言處理入門》筆記--9.關鍵詞、關鍵句和短語提取

textrank演算法原理與提取關鍵詞、自動提取摘要PYTHON

pyhanlp 提取關鍵詞、自動摘要、新詞識別

jieba 去除停用詞、提取關鍵詞、詞性標註

關鍵詞提取方法學習總結（TF-IDF、Topic-model、RAKE）

TF-IDF與餘弦相似性文字處理：自動提取關鍵詞、找出相似文章

基於輪廓提取影象文字2---OpenCV-Python教程（11、輪廓檢測）

rman數據庫恢復；關鍵/非重要文件、影像副本、控制文件、還原點、非歸檔、增量、新數據庫、災難性回復

再學ajax--第二天 | 基於php+mysql+ajax的表單註冊、登錄、註銷

基於commons-net實現ftp創建文件夾、上傳、下載功能

簡單兩步快速實現shiro的配置和使用，包含登錄驗證、角色驗證、權限驗證以及shiro登錄註銷流程（基於spring的方式，使用maven構建）

基於TextRank提取關鍵詞、關鍵短語、摘要

相關推薦