統計自然語言處理基礎學習筆記(7)——句法分析
在中文的自然語言處理種,句法分析是一個比較重要的部分。
句法分析,英文為Parsing,指對句子種的詞語語法功能進行分析。一個完整的漢語句子,一般有主語、謂語、賓語,複雜一些的句子就會出現各種各樣的依存關係,包括補語、定語、狀語、並列、同位語、數量、介賓、連動、疑問連動、兼語、關聯、重複、標點、的字結構、地字結構、語氣、時態等。如果在中文語言處理過程中,我們可以準確無誤的對句子分析出這些依存關係,那麼我們可以比較準確的找到這個句子的核心詞。自然語言處理的初級目標就可以基本實現了。
在句法分析的過程,我們會經常遇到指代的問題。例如,
我畢業於**大學,我在這裡生活了四年。它帶給我很多的回憶。
這裡的“**大學”、“這裡”都是指一個實體,屬於共指現象。“它“與”生活了四年“屬於指代關係。
中文自然語言處理的指代非常難處理。按照指向,可以分為回指和預指,其中預指是用於指代下文的關係。不管如何指向,”指代“和”共指“關係都需要對文字的情景進行分析,這涉及語料上下文的分析。一般意義上講,共指是可以脫離上下文存在,但為了更好的理解語義確不能脫離上下文,而指代是在一個下的範圍內存在。它需要解決指代和共指是從哪裡開始,到哪裡結束。如果不能解決這個問題,將導致語句結構和語意不夠清晰,影響整個文章的依賴關係的分析,比如“等價關係”,“上下位關係”,“整體和部分關係”等。
近年來,共指消解(Coreference Resolution) 和指代消解(anaphora resolution)的研究受到了格外的關注,2000 年開始的ACE(Automatic Content Extraction) 評測會議中共指消解也是重要內容之一。中文的共指消解研究開始於二十世紀末。中文共指消解評測開始於2003 年ACE 會議。