1. 程式人生 > >關鍵字抽取論文閱讀筆記

關鍵字抽取論文閱讀筆記

三種 度量 gin 提高 簡單 類模型 分類問題 同時 權重

劉知遠老師博士論文-基於文檔主題結構的關鍵詞抽取方法研究

一、研究背景和論文工作介紹

  關鍵詞抽取分為兩步:選取候選關鍵詞和從候選集合中推薦關鍵詞

1.1. 選取候選關鍵詞

關鍵詞:單個詞或者多個單詞組成的短語。

抽取難點:如何正確判定候選關鍵詞的邊界。(在英文關鍵詞抽取中,一般選N元詞串,計算N元詞串內部聯系的緊密程度來判斷是否是一個有獨立語義的短語。類比搭配抽取、多詞表達抽取任務)

1.2. 推薦關鍵詞

  得到候選關鍵詞集合後,兩種途徑解決關鍵詞選取問題。

(1)無監督的方法

  利用統計特性(egTF-IDF),排序,選取最高若幹作為關鍵詞。

(2)有監督的方法

  將關鍵詞抽取問題轉換為判斷每個候選關鍵詞是否為關鍵詞的二分類問題,它需要一個已經標註關鍵詞的文檔集合訓練分類模型。(什麽意思?具體怎麽做?)

:標註雖效果好,但耗時耗力,不能靈活面對時間變化下文檔主題的變化,因此方法集中在無監督。

知識擴展(了解一些算法思想)

  PageRank算法:對網頁進行排序,基本思想,一個網頁的重要性由鏈向它的其他網頁重要性來決定,即如果越多重要的網頁指向某網頁,那麽該網頁也就相應越重要。

  PageRank引出TextRank(基於圖的關鍵詞抽取算法),用在關鍵字抽取和文檔摘要。基本思想,將文檔看作一個詞的網絡,該網絡中的鏈接表示詞與詞之間的語義關系。基於與PageRank相似的思想,TextRank認為一個詞的重要性由鏈向它的其他詞的重要性來決定,利用PageRank計算網絡中詞的重要性,然後根據候選關鍵詞的PageRank值進行排序,從而選擇排名最高的若幹個詞作為關鍵詞。優點

是考慮了文檔中詞與詞之間的語義關系。

  用於網頁排序的HITS算法用於候選關鍵詞排序,效果也相似。

主流方法:基於圖的算法成為無監督關鍵詞抽取的主流方法。關鍵詞抽取以文檔的詞網作為基礎。

應用擴展:社會標簽自動標註(1.3節)分為兩部分

(1)基於圖的方法(涉及概念:協同標註、協同過濾、FolkRank算法、矩陣分解技術, 冷啟動)

(2)基於內容的方法(涉及概念:K 近鄰、隱含主題模型)

技術分享

圖 傳統方法

總結:以上為傳統方法,已有實現,但未系統考慮文檔主題結構對關鍵詞標註的作用。文檔關鍵詞同時有三個特點:可讀性,相關性,覆蓋度(考慮多主題問題)。論文主要解決關鍵詞對文檔主題覆蓋度問題和文檔與主題之間的詞匯差異問題(什麽是詞匯差異?1.4.2節介紹)。

二、文檔詞匯聚類算法構建文檔主題(利用文檔內部信息、提高對文檔主題的覆蓋度)

主要步驟:

1. 去停用詞,選取候選詞2. 計算候選詞之間的語義相似度

3. 根據語義相似度進行聚類

4. 選取每個聚類中心詞,在文檔中選取合適的關鍵詞

對每個步驟詳細介紹:

2.1. 去停用詞,選取候選詞

2.1.1 英語要進行斷詞,如果是漢語,先分詞。(斷詞和分詞的區分)

2.1.2 去停用詞得到候選詞。(一種候選關鍵詞研究方法:先將單詞作為候選詞,聚類中心詞,再將單個候選詞擴展為多個詞的短語)4,73

2.2. 計算候選詞之間的語義相似度

2.2.1 基於文檔內的詞同現關系(度量詞與詞的相似度)

  詞與詞的同現關系簡單地表示為兩個詞在一個最多為w個詞的滑動窗口內同現的次數。窗口大小w一般設為2到10之間的數值。在計算同現相似度時,利用每個文檔中的每個詞(不去停用詞,無意義詞用來提供距離信息),轉換為詞的序列

2.2.2 利用外部知識庫

  利用維基百科來度量詞與詞之間的相似度,基本思想:將每個維基百科詞條看作是一個獨立的概念,一個詞的語義信息可以用維基百科概念上的分布來表示,在某個概率上的權重可以用這個詞的概率詞條中的TF-IDF值來表示。比較兩個詞的概念向量來度量相似度。(很有效

  選用余弦相似度(COS)、歐式距離(EU-C)、點互信息(PMI)和規範化Google距離(NGD)來計算相似度。具體公式查看第12頁

2.3 聚類方法(無監督,將對象劃分為不同組,每個組內對象相互比較相似,組與組之間對象不同)

  采用三種典型聚類算法:層次聚類、譜聚類、信任傳播聚類。

未完待續

三、隱含主題模型構建文檔主題(利用文檔外部信息,不受限文檔長短)

四、基於主題的隨機遊走模型(隱含主題模型和文檔結構信息相結合)

五、機器翻譯詞對齊模型計算詞到關鍵詞的翻譯概率(比較有效)

關鍵字抽取論文閱讀筆記