1. 程式人生 > >文字關鍵詞提取方法綜述

文字關鍵詞提取方法綜述

一、提取過程

總共分兩步,第一步對文章分詞、去停用詞、pos tag 之後,得到候選關鍵詞列表L;第二步,使用關鍵詞提取演算法提取關鍵詞。

最後得到的關鍵詞應滿足以下三個條件:

1·、Understandable. The keyphrases are understandable to people. This indicates the extracted keyphrases should be grammatical. For example, “machine learning” is a grammatical phrase, but “machine learned” is not.

2、Relevant. The keyphrases are semantically relevant with the document theme. For example, for a document about “machine learning”, we want the keyphrases all about this theme.

3、Good coverage. The keyphrases should cover the whole document well. Suppose we have a document describing “Beijing” from various aspects of “location”, “atmosphere” and “culture”, the extracted keyphrases should cover all the three aspects,instead of just a partial subset of them。
 

二、關鍵詞提取演算法綜述

1、TF-IDF

計算L中每個單詞的詞頻TF和逆文件頻率IDF,二者的乘積作為這個單詞的得分,得分=重要性。

          在本質上IDF是一種試圖抑制噪音的加權,並且單純地認為文字頻率小的單詞就越重要,文字頻率大的單詞就越無用。這對於大部分文字資訊,並不是完全正確的。IDF的簡單結構並不能使提取的關鍵詞,十分有效地反映單詞的重要程度和特徵詞的分佈情況,使其無法很好地完成對權值調整的功能。尤其是在同類語料庫中,這一方法有很大弊端,往往一些同類文字的關鍵詞被掩蓋。例如:語料庫D中教育類文章偏多,而文字j是一篇屬於教育類的文章,那麼教育類相關的詞語的IDF值將會偏小,使提取文字關鍵詞的召回率更低。

         TF-IDF的優點是實現簡單,相對容易理解。但是,TFIDF演算法提取關鍵詞的缺點也很明顯,嚴重依賴語料庫,需要選取質量較高且和所處理文字相符的語料庫進行訓練。另外,對於IDF來說,它本身是一種試圖抑制噪聲的加權,本身傾向於文字中頻率小的詞,這使得TF-IDF演算法的精度不高。TF-IDF演算法還有一個缺點就是不能反應詞的位置資訊,在對關鍵詞進行提取的時候,詞的位置資訊,例如文字的標題、文字的首句和尾句等含有較重要的資訊,應該賦予較高的權重。

2、TextRank

候選詞的重要性根據它和其他候選詞的關係來確定。

1  考慮了單詞之間的相互關係。同樣沒有考慮單詞的語義資訊。

2詞語和詞語之間的連線僅僅以單個獨的句子內使用滑動視窗來確定, 缺少對上下文的整體考慮。

3、詞語和詞語之間連線的權重都賦予相同的預設值,不能區分連線關係的強弱。

3、基於語義的關鍵詞提取(SKE)

對於文字分詞後的每個單詞,求其關鍵度得分。

得分由三部分組成:1、居間度密度Vd2、詞性pos(名詞、動詞…..), 位置loc(標題,段首,斷尾),詞長(len(word));3tf-idf;對123加權得到最後的詞語關鍵度得分。居間度密度為這篇論文提出的特徵。

4、word2vec + Kmeans

候選詞對應的詞向量,對詞向量進行聚類,距離聚類中心點最近的向量為關鍵詞。

5、詞語位置加權的TextRank

應用於關鍵詞抽取時,構建的是一種無向無權圖,每一個結點被賦予一個初始值 1,然後迭代計算權重。 直觀看來,可以根據某種策略對部分重要的結點賦予較高的初值,以改善排序結果,但這種方法無法奏效,實際上,排序的結果對應轉移矩陣的特徵向量,和結點賦予的初值無關,而是由連線結點的邊的權重所決定。筆者將基於候選關鍵詞圖,討論如何引入邊的權重以改進排序效果,實現關鍵詞抽取。

6、基於LDA的關鍵詞提取

LDA的訓練,可以的得到一篇文章的主題分佈p(z|di),和文章中詞的主題分佈p(z|wi),可以通過餘弦相似度或者KL散度來計算這兩個分佈的相似性。如果文章的某一主題z的概率很大,而該文章中某個詞對於該主題z也擁有更大的概率,那麼該詞就會有非常大的概率成為關鍵詞

7、topical textrank  TPR = LDA + TextRank

TPR的思想是每個主題單獨執行各自的帶偏好的TextRank,每個主題的TextRank都會偏好與主題有較大相關度的詞,這個偏好就是設定隨機跳轉的概率來得到的。