論文閱讀(8)PDTB-style Discourse Annotation of Chinese Text(2012)
阿新 • • 發佈:2020-10-19
PDTB-style Discourse Annotation of Chinese Text(2012)
1h,科普
Activation
-
描述了一個漢語語篇標註方案,採用了詞彙基礎法(受PDTB啟發);
-
同時,它根據中文文字的語言和統計特徵進行改編。
-
提供了一個更廣闊的視角,來研究 廣義詞彙基礎方法,如何在 跨語言的篇章關係註釋 的語境中充實自己。
PDTB註釋方案
Annotation of sense:Class,Type,Subtype
解決方案:Adapted scheme for Chinese
3.1 Key characteristics of Chinese text
- 中英文的差異
-
漢語中,它們不僅僅以逗號分隔,而且沒有連線它們的連線詞
-
漢語句子中 的 篇章關係在標註漢語時會丟失,而漢語句子中的 篇章關係 會在英語句子中按照程式被捕獲。
-
為了確保合理的覆蓋率,我們需要在註釋中文文字時考慮逗號分隔的句內隱含關係。
3.2 Systematic adaptations(系統合成)
3.2.1 Procedural division between explicit and implicit discourse relation(顯性和隱性話語關係之間的程式劃分)
3.2.2 Annotation of implicit discourse relations(隱性篇章關係標註)
3.2.3 Definition of Arg1 and Arg2
沒有意義,中文使用平行連線池。
實驗
結論
-
根據漢語特點改編,篇章關係是涉及兩個論元的預測。謂語可以是隱性的或顯性的,詞彙化為篇章連線詞(顯性)。
-
對篇章關係的Senses(不僅是連線詞)進行註釋,並且在篇章關係的兩個論元在語義上被定義,使得 sense structure 更general,更少依賴連線詞。