1. 程式人生 > >依存句法分析小結

依存句法分析小結

一直都是對依存句法分析只有一個模模糊糊的概念,最近看了一些相關的文章以及視訊,在這裡做一個小結。

依存句法 分析( Dependency Parsing, DP) 通過分析語言單位內成分之間的依存關係揭示其句法結構。

使用語義依存刻畫句子語義,好處在於不需要去明白詞彙本身的意思,而是通過詞彙所承受的語義框架來描述該詞彙,而其數目相對詞彙來說數量是小很多的。這樣一來,大部分的句子都可以用這個框架來表示,同時,我們又能總結出這句話大概講了些什麼。

首先,句子中的核心動詞是支配其他成分的中心成分,它本身不受支配。其次,其它成分間也存在支配關係。

關於如何支配的問題,具體可以總結為以下五條規律(在20世紀70年代,Robinson提出依存語法中關於依存關係的四條公理,在處理中文資訊的研究中,中國學者提出了依存關係的第五條公理):
一個句子中只有一個成分是獨立的,即核心成分;
句子的其他成分都從屬於某一成分,即除了核心成分外的部分;
任何一個成分都不能依存於兩個及以上的成分;
如果成分A直接從屬成分B,而成分C在句子中位於A和B之間,那麼,成分C或者從屬於A,或者從屬於B,或者從屬於A和B之間的某一成分(如果將從屬關係用線條表示出來的話,那麼這些線條不會發生交交錯);
核心成分左右兩邊的其他成分相互不發生關係,相當於核心成分是一條界線,左右兩邊的部分不再發生支配關係

下面的列表列出了主要存在哪些關係以及相應的例子,箭頭的方向為由從屬詞指向支配詞:
這裡寫圖片描述

那依存句法分析有哪些應用呢?
可對相應樹庫構建體系的正確性和完善性進行驗證;
直接服務於各種上層應用,比如搜尋引擎使用者日誌分析和關鍵詞識別,比如資訊抽取、自動問答、機器翻譯等
下面列舉一個知乎上的例子(https://www.zhihu.com/question/39034550):
這裡寫圖片描述

講了這麼多,還沒說具體怎麼實現依存句法分析呢?總不可能人工地去進行標註吧。
和很多問題一樣,有兩個方向來解決問題:基於規則和基於統計。現在的主流是基於統計的方法。
那具體地說,基於統計的有哪些方法呢?
一種是基於圖的方法(Graph Based),一種是基於決策(Transition Based)的方法。
具體解釋看這裡(

https://blog.csdn.net/sinat_26917383/article/details/55682996):
這裡寫圖片描述

目前在開源中文句法分析器中比較具有代表性有Stanford parser和 Berkeley parser。