1. 程式人生 > >共指消解(coreference resolution)介紹

共指消解(coreference resolution)介紹

什麼是共指消解(coreference resolution)?

(篇章內)共指消解就是將文章中所有表述劃分為現實世界中不同實體的等價描述。舉個例子:比如一個常見的新聞稿子:…應中華人民共和國總書記,國家主席,國家軍委主席胡錦濤的邀請,美國總統奧巴馬再次訪問中國。…奧巴馬一行乘坐空中一號於某時抵達北京國際機場,胡主席率領某某等前往首都機場迎接他的專機….。在這個句子中。有至少三個等價描述簇:1)中國人民共和國,中國,國家;2)中國人民共和國總書記,國家主席,國家軍委主席,胡錦濤,胡主席;3)美國總統,奧巴馬,他。

常見共指消解根據照應語(anaphor)的詞性可分為:代詞消解(如上例中的他指奧巴馬)和名詞消解(如國家主席和國家軍委主席,胡主席)。

為什麼要研究共指消解?

共指消解是自然語言處理中的核心問題,在機器翻譯,資訊抽取以及問答等領域有重要作用。就拿常見的資訊抽取的一個成型系統來講吧,微軟的學術搜尋引擎會有一些作者的檔案資料,這些資訊可能有部分就是根據共指物件抽取出來的。比如一個教授的訪談錄:教授的名字可能只出現一兩次,更多的可能是“我”,“某某博士”,“某某教授”,“他”之類的代稱,不出意外的話,這裡面也會有些同樣的詞代表記者,如何將這些詞對應到正確的人上可能會是資訊抽取的關鍵(此部分屬於假想,但實際專案中應該會用到此類技術)。

共指消解的基本概念:

照應語(anaphor):指向一個真正實體的詞;

先行語(antecedent):真正實體;

比如第一個例子中,”他”是照應語,“奧巴馬”是照應語。

回指:照應語在先行語後邊;

預指:照應語在先行語前邊。

共指消解的研究現狀:

據stanford的Christopher D. Manning所說,至少英文中的共指消解技術已經達到了一個相對理想的效果。至於中文呢,...