關於共指消解中特徵的選取和計算
1.單複數計算模組
先行語:由於先行語是由命名實體識別模組識別出來的,包括人名、地名和組織機構名,因而都是單數;在命名實體識別任務完成後,對人名、地名和組織機構名相同類別的先行語進判別,看先行語之間是否由“和”,“與”,“、”隔開,有的話即把這些同類實體及連線符號一起記錄資料庫中,即新增一新實體。
例:{{張三}1-h和{李四}2-h}3-and都是好學生,{前者}1-o還是省優秀大學生,{他們}3-o都棒。
指代語:由於指代語的構成較為複雜,這裡只考慮下面幾種情況。
①查詢詞典,一班人、群眾、大眾、公眾等
②檢視指語前面的數詞,按詞順序不斷往前搜尋,直到找到數詞或碰到動詞結束搜尋。數詞形如,全部
③查詢名詞短語(指代語)是否存在“和”、“並”、“與”和“、”等關鍵字。
2.關於性別計算模組
由於只有人名在存在性別屬性,因而對於人名先行語,分別抽出其名中的用字,搜尋語料庫,得到字對應的男,女發生比例,找出差距較大的字對應比較,計算輸出權值。
對於指代語而言,搜尋關鍵字,如先生, 小姐, 男士, 女士,他,她等。
3.實體和提及的距離,是否在同一句中
搜尋實體和名詞短語(提及)之間是否存在“。”、“?”、“!”、“:”、“……”等。
4.先行語的類別
即命名識體識別模組的結果,H(人名)、S(地名)、ORG(組織機構名)等。
5.指代語的指示特徵
指人代詞:你我他/們等
指示代詞:(這|那)<些>+
6.實體和名詞短語是否相臨
位置相連或由“、”隔開。
7.簡單語義類特徵(指代語)
利用同義詞詞林,把名詞短語擬看成偏正結構,從左往右不斷消解。例如,“南/j理工/j”會先搜“南理工”的語義類,搜不到後再搜“理工”的語義類,再搜不到即輸出U。
8.簡稱特徵
利用定義的規則對實體與名詞短語進行規則判別,輸出判別結果,T/F。
9.主謂語特徵
利用依存分析找出實體和提及充當的句子成份,主語還是謂語。待定.