1. 程式人生 > >文本自動摘要發展歷程

文本自動摘要發展歷程

滿足 分類器 樸素貝葉斯算法 計算 font 生成式 領域 分類問題 摘要生成

看了近70年文本自動摘要研究綜述,簡單記錄一下文本自動摘要的發展歷程和方法。

文本摘要通常是指從單個或多個文檔中產生一段文本,該文本傳達了原始文本的主要信息。

文本自動摘要是20世紀50年代出現的一種用計算機完成的文本摘要技術,幫助人們從信息海洋中解放,提高信息的使用效率。

自動摘要研究是從抽取式摘要開始的。

1.抽取式自動摘要

  根據詞頻確定詞權重:首先對所有詞出現的頻率進行統計;根據經驗確定一個頻率區間,區間內為重要詞,區間外的詞是高頻詞和低頻詞視為噪音;對於文章中包含重要詞和不超過四個非重要詞的句子,被選中為候選句,句子的重要性得分按照公式(1)計算:

技術分享圖片

其中,sign代表括號內的重要詞數,n代表括號中的總詞數。根據對候選句計算重要性得分高低進行排序,選出若幹最高得分的句子作為摘要。

後來又加入了句子位置作為特征,在段落中85%的主題句位於段首,7%的主題句處於段尾。詞頻、句子位置、線索詞、標題詞這四個特征是早期抽取式自動摘要使用的主要特征。

2.利用外部資源的方法

  隨著自動摘要研究的深入,研究人員不再滿足於簡單統計文本本身的特征,開始借助外部資源來輔助確定文檔中的詞權重、獲取詞間語義關系等,從而識別重要句子。常用外部資源有背景語料、同義詞典、知識庫等,較為著名的方法有TF-IDF、詞匯鏈等方法。

  TF-IDF的基本思想是:在一個語料庫中,一個詞的重要性於詞頻正相關,於包含它的文檔數負相關。思路是:根據背景語料庫統計各個詞的TF-IDF值,作為詞的重要性得分,然後計算文章各句的的詞的TF-IDF和,作為句子的重要性得分,抽取最重要的句子作為摘要。

  詞匯鏈,不再以單個詞作為分析單元,而是利用WordNet、詞性標註工具、維基百科等對詞義進行分析,把原文中於某個主題相關的詞集合起來,構成詞匯鏈。選出強詞匯鏈,為每一個強詞匯鏈抽取一個句子構成摘要。

3.基於統計機器學習的方法

  20世紀90年代,有監督的機器學習方法在自然語言處理領域得到廣泛使用,該方法通過對人工標註語料進行訓練,可以獲得句子的文本特征與句子重要性的關系模型,利用此模型即可對未標註句子的重要性進行自動檢測,生成摘要。在這類方法中,抽取式自動摘要問題被轉化成一個二分類問題。一個句子要麽是摘要句,要麽不是。首先人工將重要句子標註出來,然後提取這些句子的特征,學習算法通過統計分析學習,得到特征與句子重要性的關系,進而得到合適的分類器。向分類器中丟入待分類句子,可得到重要句子得分,選出重要句子。

  較為廣泛使用的算法有:樸素貝葉斯算法、決策樹算法、最大墑算法、隱馬爾可夫算法。

4.基於語言網絡的方法

  語言是一個復雜網絡,構成網絡的節點可以是詞、概念、句子等文本單元,節點之間以句法、語義、語音、拓撲等產生關系。

5.基於深度學習的方法   分為深度框架和(抽取式)和深度學習(生成式)兩種。

  5.1 深度框架:輸入層為詞頻向量、輸出層為摘要、隱層是若幹個受限的玻耳茲曼機,多個隱層可以使得底層特征可用於推斷出更優的高層特征,而高層特征的有效性又可通過底層驗證。分為三個階段:概念抽取/重建驗證/摘要生成。

  5.2深度學習:“序列到序列的方法” 自動摘要問題也被視為從原文本到摘要文本的映射。自動摘要模塊 Tensorflow——Textsum

文本自動摘要發展歷程