1. 程式人生 > >NLP+句法結構(三)︱中文句法結構(CIPS2016、依存句法、文法)

NLP+句法結構(三)︱中文句法結構(CIPS2016、依存句法、文法)

這裡寫圖片描述

摘錄自:CIPS2016 中文資訊處理報告《第一章 詞法和句法分析研究進展、現狀及趨勢》P8 -P11
CIPS2016> 中文資訊處理報告下載連結:http://cips-upload.bj.bcebos.com/cips2016.pdf

這裡寫圖片描述
.

一、依存句法分析

依存語法存在一個共同的基本假設:句法結構本質上包含詞和詞之間的依存(修飾)關係。一個依存關係連線兩個詞,分別是核心詞( head)和依存詞( dependent)。依存關係可以細分為不同的型別,表示兩個詞之間的具體句法關係。

目前研究主要集中在資料驅動的依存句法分析方法,即在訓練例項集合上學習得到依存句法分析器,而不涉及依存語法理論的研究。資料驅動的方法的主要優勢在於給定較大規模的訓練資料,不需要過多的人工干預,就可以得到比較好的模型。因此,這類方法很容易應用到新領域和新語言環境。資料驅動的依存句法分析方法主要有兩種主流方法:基於圖( graph-based)的分析方法和基於轉移( transition-based)的分析方法

1、基於圖的依存句法分析方法

基於圖的方法將依存句法分析問題看成從完全有向圖中尋找最大生成樹的問題。一棵依存樹的分值由構成依存樹的幾種子樹的分值累加得到。根據依存樹分值中包含的子樹的複雜度,基於圖的依存分析模型可以簡單區分為一階和高階模型。
高階模型可以使用更加複雜的子樹特徵,因此分析準確率更高,但是解碼演算法的效率也會下降。基於圖的方法通常採用基於動態規劃的解碼演算法,也有一些學者採用柱搜尋(beamsearch)來提高效率。學習特徵權重時,通常採用線上訓練演算法,如平均感知器( averagedperceptron)。

2、基於轉移的依存句法分析方法

基於轉移的方法將依存樹的構成過程建模為一個動作序列,將依存分析問題轉化為尋找最優動作序列的問題。

早期,研究者們使用區域性分類器(如支援向量機等)決定下一個動作。近年來,研究者們採用全域性線性模型來決定下一個動作,一個依存樹的分值由其對應的動作序列中每一個動作的分值累加得到。特徵表示方面,基於轉移的方法可以充分利用已形成的子樹資訊,從而形成豐富的特徵,以指導模型決策下一個動作。模型通過貪心搜尋或者柱搜尋等解碼演算法找到近似最優的依存樹。和基於圖的方法類似,基於轉移的方法通常也採用線上訓練演算法學習特徵權重。

3、多模型融合的依存句法分析方法

基於圖和基於轉移的方法從不同的角度解決問題,各有優勢。基於圖的模型進行全域性搜尋但只能利用有限的子樹特徵,而基於轉移的模型搜尋空間有限但可以充分利用已構成的子樹資訊構成豐富的特徵。詳細比較發現,這兩種方法存在不同的錯誤分佈。因此,研究者們使用不同的方法融合兩種模型的優勢,常見的方法有:stacked learning;對多個模型的結果加權後重新解碼(re-parsing);從訓練語料中多次抽樣訓練多個模型(bagging)。
.
.

二、短語結構句法分析

短語結構句法分析的研究基於上下文無關文法( Context Free Grammar, CFG)。
上下文無關文法可以定義為四元組 【T, N, S, R】,其中 T 表示終結符的集合(即詞的集合), N 表示非終結符的集合(即文法標註和詞性標記的集合), S 表示充當句法樹根節點的特殊非終結符,而 R 表示文法規則的集合,其中每條文法規則可以表示為 Ni-r ,這裡的r表示由非終結符與終結符組成的一個序列(允許為空)。
.
.

三、深層文法句法分析

1、詞彙化樹鄰接文法,簡稱 LTAG

對樹鄰接文法( TAG)進行詞彙化擴充套件得到的。。在樹鄰接文法中,有兩種子樹操作:替換( Substitution)和插接( Adjunction)。
詞彙化語法是給所有基本樹都和具體詞關聯起來,使得樹更加具有個性化。

2、詞彙功能文法,簡稱 LFG

LFG 把語言看成是由多維結構組成的,每一維都用特殊規則、概念和格式表示成一個特殊結構
LFG 包含兩種最基本的結構:
1) F-結構,用於表示語法功能; 2) C-結構,用於表示句法功能。除此之外還有一些其他結構,用於表示淺層資訊,例如謂詞論元關係等。

3、組合範疇文法,簡稱 CCG

一種型別驅動的詞彙化文法,通過詞彙範疇顯式地提供從句法到語義的介面,屬於短語結構文法
.
.

四、深度學習的句法分析

深度學習則把原子特徵進行向量化,在利用多層神經元網路提取特徵。所謂向量化就是把詞、詞性等用低維、連續實數空間上的向量來表示,從而便於尋找特徵組合與表示,同時容易進行計算。
這裡寫圖片描述

在圖 1 中,把詞、詞性、類別標籤等原子特徵表示為向量,然後利用多層網路進行特徵提取。深度學習在特徵表示方面有如下優點:
1)只需要原子特徵。這些原子特徵以前是通過人工的自由組合形成最終的一元特徵、二元特徵、三元特徵、四元特徵甚至更多元的組合。

這種人工組合最後取得較好的效果,但是事實上我們不知道怎麼組合能形成最佳的特徵集合。深度學習將所有的原子特徵向量化之後,直接採用向量乘法以及非線性等各種運算從理論上能實現任意元的特徵組合。
2)能使用更多的原子特徵。比如基於圖的模型中,在建立弧時,不僅僅使用左邊第一個詞、右邊第一個詞等原子特徵,還可以使用左邊整個詞序列、右邊整個詞序列的特徵。研究人員把這種基於深度學習的特徵表示方法分別應用在基於圖的句法分析模型和基於轉移的句法分析模型上,實驗結果表明深度學習方法開始在句法中發揮作用。