1. 程式人生 > >關於共指消解中特徵的選取和計算

關於共指消解中特徵的選取和計算

1.單複數計算模組

先行語:由於先行語是由命名實體識別模組識別出來的,包括人名、地名和組織機構名,因而都是單數;在命名實體識別任務完成後,對人名、地名和組織機構名相同類別的先行語進判別,看先行語之間是否由“和”,“與”,“、”隔開,有的話即把這些同類實體及連線符號一起記錄資料庫中,即新增一新實體。

例:{{張三}1-h{李四}2-h}3-and都是好學生,{前者}1-o還是省優秀大學生,{他們}3-o都棒。

指代語:由於指代語的構成較為複雜,這裡只考慮下面幾種情況。

查詢詞典,一班人、群眾、大眾、公眾等

檢視指語前面的數詞,按詞順序不斷往前搜尋,直到找到數詞或碰到動詞結束搜尋。數詞形如,全部

全體 一切 所有 全副 全份 成套 整套 一體 滿 盡數少 少數 個別等。找到數詞,查詢數詞對應詞典判別單複數。

查詢名詞短語(指代語)是否存在“和”、“並”、“與”和“、”等關鍵字。

2.關於性別計算模組

由於只有人名在存在性別屬性,因而對於人名先行語,分別抽出其名中的用字,搜尋語料庫,得到字對應的男,女發生比例,找出差距較大的字對應比較,計算輸出權值。

對於指代語而言,搜尋關鍵字,如先生, 小姐, 男士, 女士,他,她等。

3.實體和提及的距離,是否在同一句中

搜尋實體和名詞短語(提及)之間是否存在“。”、“?”、“!”、“:”、“……”等。

4.先行語的類別

即命名識體識別模組的結果,H(人名)、S(地名)、ORG(組織機構名)等。

5.指代語的指示特徵

指人代詞:你我他/們等

指示代詞:(這|那)<>+

6.實體和名詞短語是否相臨

位置相連或由“、”隔開。

7.簡單語義類特徵(指代語)

利用同義詞詞林,把名詞短語擬看成偏正結構,從左往右不斷消解。例如,“南/j理工/j”會先搜“南理工”的語義類,搜不到後再搜“理工”的語義類,再搜不到即輸出U

8.簡稱特徵

利用定義的規則對實體與名詞短語進行規則判別,輸出判別結果,T/F

9.主謂語特徵

利用依存分析找出實體和提及充當的句子成份,主語還是謂語。待定.