1. 程式人生 > >NLP之文章摘要

NLP之文章摘要

文字自動文摘(automatic summarization/abstracting)是利用計算機自動實現文字分析、內容歸納和摘要自動生成的技術。

按照不同的標準自動文摘可以劃分為不同的型別
如果根據文摘的功能劃分,可以分為指示型文摘(indicative)、報道型文摘(informative)和評論型文摘(evaluative)。
根據輸入文字的數量劃分,自動文摘可以分為單文件摘要和多文件摘要兩類。
根據原文語言種類劃分,自動文摘可以分單語言(monolingual)摘要和跨語言(cross-lingual)摘要。
根據文摘和原文的關係劃分,則又可以分為摘錄型文摘(extract)和理解型文摘(abstract),前者是由從原文中抽取出來的片段組成,而後者則是對原文主要內容重新組織後形成的。
如果根據文摘的應用劃分,則可以分為普通型(generic)文摘和麵向用戶查詢的(query-oriented)文摘,前者提供原文作者的主要觀點,而後者則反映使用者感興趣的內容。

需要指出的是,上述文摘型別的劃分並非互斥的,各種劃分型別之間存在一定的重疊,例如,多文件摘要也可以是跨語言的多文件摘要。

1999曾將自動文摘方法概括為四種:自動摘錄、基於理解的自動文摘、資訊抽取和基於結構的自動文摘。而2005則從系統實現的方法考慮,將多文件自動文摘方法概括為三種:基於單文件文摘技術的方法、基於資訊抽取的方法和基於多文件集合特徵的方法。

一般來說,自動文摘過程包括三個基本步驟:

文字分析過程是對原文字進行分析處理,識別冗餘資訊;文字內容的選取和泛化過程是從文件中辨認重要資訊,通過摘錄或概括的方法壓縮文字,或者通過計算分析的方法形成文摘表示;文摘的轉換和生成過程實現對原文內容的重組或者根據內部表示生成文摘,並確保文摘的連貫性。

由於不同的系統所採用的具體實現方法不同,因此,在不同的系統中上述幾個模組所處理的問題和採用的方法也有所差異。例如,在基於句子抽取的多文件文摘系統中,其基本思想是通過計算句子之間的相似性,抽取文摘句,然後對文摘句排序的方法生成最後的文摘,因此,其核心技術集中在句子相似性計算、文摘句抽取和文摘句排序三個問題上,並不需要經過文摘表示這一中間環節。

多文件摘要

一般來說,多文件摘要的概念具有更大的外延,多文件摘要技術研究可以涉及更廣泛的技術問題。從定義的角度講,多文件摘要就是將同一主題下的多個文字描述的主要資訊按壓縮比提煉出一個文字的自然語言處理技術。從應用的角度來看,一方面,在網際網路上使用搜索引擎時,搜尋同一主題的文件往往會返回成千上萬個網頁,如果將這些網頁形成一個統一的、精練的、能夠反映主要資訊的摘要必然具有重要的意義。另一方面,對於網際網路上某一新聞單位針對同一事件的系列報道,或者對某一事件數家新聞單位同一時間的報道,若能從這些相關性很強的文件中提煉出一個覆蓋性強、形式簡潔的摘要也同樣具有重要的意義。而這兩種情況正是多文件摘要技術的兩種典型應用。

1.問題與方法

無論是單文件文摘還是多文件文摘,目前採用的方法一般為基於抽取的方法(extracting method)或稱摘錄型方法和基於理解的方法(abstracting method)。在單文件摘要系統中,一般都採用基於抽取的方法。而對於多文件而言,由於在同一主題中的不同文件中不可避免地存在資訊交疊和資訊差異,因此,如何避免資訊冗餘,同時反映出來自不同文件的資訊差異是多文件文摘中的首要目標,而要實現這個目標通常意味著要在句子層以下做工作,如對句子進行壓縮、合併、切分等。所以,多文件摘要系統所面臨的問題更加複雜。

另外,單文件的輸出句子一般都按照句子在原文中出現的順序排列,而在多文件摘要中,大都採用時間順序排列句子,如何準確地得到每個句子的時間資訊,也是多文件文摘中需要解決的一個重要問題。

正如前面指出的,自動文摘過程通常包括三個基本步驟,實現這些基本步驟的方法可以是基於句子抽取的,也可以是基於內容理解的,或者是基於結構分析的或其他方法。但無論採用什麼樣的方法,都必須面對三個關鍵問題:
①文件冗餘資訊的識別和處理;
②重要資訊的辨認;
③生成文摘的連貫性。

常用的冗餘識別方法通常有兩種,一種是聚類的方法,測量所有句子對之間的相似性,然後用聚類方法識別公共資訊的主題;另一種做法是採用候選法,即系統首先測量候選文段與已選文段之間的相似度,僅當候選段有足夠的新資訊時才將其入選。如最大邊緣相關法MMR。

辨認重要資訊的常用方法有抽取法和資訊融合法。抽取法的基本思路是選出每個聚類中有代表性的部分(一般為句子),預設這些代表性的部分(句子)可以表達這個聚類中的主要資訊。資訊融合(information fusion)法的目的是要生成一個簡潔、通順並能反映這些句子(主題)之間共同資訊的句子。為達到這個目標,要識別出對所有入選的主題句都共有的短語,然後將之合併起來。由於集合意義上的句子交集效果並不理想,因此,需要一些其他技術來實現融合,這些技術包括句法分析技術、計算主題交
集(theme intersection)等。

為了確保文摘句子的一致性和連貫性,需要排列句子的先後順序。目前採用的句子排序方法通常有兩種:一種是時間排序法(chronological ordering),另一種是擴張排序演算法(augmented algorithm)。在時間排序法中,一般選定某一個時間為參考點,然後計算其他相對時間的絕對時間。擴張排序演算法的目的是試圖通過將有一定內容相關性的主題(topically related themes)放在一起來降低不流暢性。

雖然很多學者致力於理解式方法的研究,但摘錄型的摘要方法仍是實用性自動摘要的主流方法。已有的摘錄型方法的主要思路是從文章中提取特徵,然後採用有監督或者無監督的機器學習方法對句子進行分類、打分,並進行句子抽取和排序。特徵提取的基
本單位是句子。

2.文摘評測

文摘自動評測是自然語言處理中比較棘手的問題,相對於機器翻譯、資訊檢索等其他技術的評測更加困難,因為理論上根本沒有完美的摘要作參考。

傳統的文摘評價方法主要由人工根據以下幾個指標評價文摘的質量:一致性、簡潔性、文法合理性、可讀性和內容含量。但是,在針對大規模文字進行評測時,人工評價需要消耗大量的人力,實現起來比較困難。文摘自動評估方法大致分為兩類:一類稱作內部(intrinsic)評價方法,與文摘系統的目的相關,它通過直接分析摘要的質量來評價文摘系統;第二類稱作外部(extrinsic)評價方法,它是一種間接的評價方法,與系統的功能相對應,將文摘應用於某一個特定的任務中,根據摘要功能對特定任務的效果來評價自動文摘系統的效能,如對於資訊檢索任務而言,可以對比採用摘要進行檢索與採用原文進行檢索的準確率差異,通過文摘對檢索系統的效果來評價文摘系統的效能。

內部評價方法可以按資訊的覆蓋面和正確率來評價文摘的質量,一般採用將系統結果與“理想摘要”相比較的方法。這種評價方法源於資訊抽取技術。在資訊抽取評測中,將原文的關鍵要點抽取出來,然後與人工抽取的內容相比較,計算其召回率(recall)、準確率(precision)、冗餘率(overgeneration)和偏差率(fallout)等幾個指標。這種內部評價方法存在的主要困難是“理想摘要”的獲得問題。