1. 程式人生 > >農業領域的知識圖譜構建(Agriculture_KnowledgeGraph)

農業領域的知識圖譜構建(Agriculture_KnowledgeGraph)

Agriculture_KnowledgeGraph

命名實體識別

進入主頁面,輸入文字,即可看到以下命名實體和分詞的結果(確保django和neo4j都處於開啟狀態):

image

點選實體的超連結,可以跳轉到詞條頁面:

image

關係查詢

關係查詢部分,我們能夠搜尋出與某一實體相關的實體,以及它們之間的關係:
image

知識的樹形結構

農業知識概覽部分,我們能夠列出某一農業分類下的詞條列表,這些概念以樹形結構組織在一起:

image

農業分類的樹形圖:

image

訓練集標註

我們還製作了訓練集的手動標註頁面,每次會隨機的跳出一個未標註過的詞條。連結:http://localhost:8000/tagging-get

, 手動標註的結果會追加到/label_data/labels.txt檔案末尾:

image

思路

圖譜實體獲取:

1.根據19000條農業網詞條,按照篩法提取名詞(分批進行,每2000條1批,每批維護一個不可重集合)

2.將9批詞做交集,生成農業詞典

3.將詞典中的詞在互動百科中進行爬取,拋棄不存在的頁面,提取頁面內容,存到資料庫中

4.根據頁面內容,提取每一個詞條頁面的特徵,構造相似度的比較方法,使用KNN進行分類

5.最後獲取每個詞條的所屬類別,同時能夠剔除不屬於農業的無關詞條

命名實體識別:

使用thulac工具進行分詞,詞性標註,命名實體識別(僅人名,地名,機構名)
為了識別農業領域特定實體,我們需要:
1. 分詞,詞性標註,命名實體識別
2. 以識別為命名實體(person,location,organzation)的,若實體庫沒有,可以標註出來
3. 對於非命名實體部分,採用一定的詞組合和詞性規則,在O(n)時間掃描所有分詞,過濾掉不可能為農業實體的部分(例如動詞肯定不是農業實體)
4. 對於剩餘詞及詞組合,匹配知識庫中以分好類的實體。如果沒有匹配到實體,或者匹配到的實體屬於0類(即非實體),則將其過濾掉。
5. 實體的分類演算法見下文。

HudongItem

image

頁面分類

分類器:KNN演算法

  • 無需表示成向量,比較相似度即可
  • K值通過網格搜尋得到

定義兩個頁面的相似度sim(p1,p2):


  • title之間的詞向量的餘弦相似度(利用fasttext計算的詞向量能夠避免out of vocabulary)
  • 2組openType之間的詞向量的餘弦相似度的平均值
  • 相同的baseInfoKey的IDF值之和(因為‘中文名’這種屬性貢獻應該比較小)
  • 相同baseInfoKey下baseInfoValue相同的個數
  • 預測一個頁面時,由於KNN要將該頁面和訓練集中所有頁面進行比較,因此每次預測的複雜度是O(n),n為訓練集規模。在這個過程中,我們可以統計各個分相似度的IDF值,均值,方差,標準差,然後對4個相似度進行標準化:(x-均值)/方差
  • 上面四個部分的相似度的加權和為最終的兩個頁面的相似度,權值由向量weight控制,通過10摺疊交叉驗證+網格搜尋得到

Labels:(命名實體的分類)

Label NE Tags Example
0 Invalid(不合法) “色調”,“文化”,“景觀”,“條件”,“A”,“234年”(不是具體的實體,或一些髒資料)
1 Person(人物,職位) “袁隆平”,“習近平”,“皇帝”
2 Location(地點,區域) “福建省”,“三明市”,“大明湖”
3 Organization(機構,會議) “華東師範大學”,“上海市農業委員會”
4 Political economy(政治經濟名詞) “惠農補貼”,“基本建設投資”
5 Animal(動物學名詞,包括畜牧類,爬行類,鳥類,魚類,等) “綿羊”,“淡水魚”,“麻雀”
6 Plant(植物學名詞,包括水果,蔬菜,穀物,草藥,菌類,植物器官,其他植物) “蘋果”,“小麥”,“生菜”
7 Chemicals(化學名詞,包括肥料,農藥,殺菌劑,其它化學品,術語等) “氮”,“氮肥”,“硝酸鹽”,“吸溼劑”
8 Climate(氣候,季節) “夏天”,“乾旱”
9 Food items(動植物產品) “乳酪”,“牛奶”,“羊毛”,“麵粉”
10 Diseases(動植物疾病) “褐腐病”,“晚疫病”
11 Natural Disaster(自然災害) “地震”,“洪水”,“饑荒”
12 Nutrients(營養素,包括脂肪,礦物質,維生素,碳水化合物等) “維生素A”,”鈣”
13 Biochemistry(生物學名詞,包括基因相關,人體部位,組織器官,細胞,細菌,術語) “染色體”,“血紅蛋白”,“腎臟”,“大腸桿菌”
14 Agricultural implements(農機具,一般指機械或物理設施) “收割機”,“漁網”
15 Technology(農業相關術語,技術和措施) “延後栽培”,“衛生防疫”,“扦插”
16 other(除上面類別之外的其它名詞實體,可以與農業無關但必須是實體) “加速度”,“cpu”,“計算機”,“愛鳥周”,“人民幣”,“《本草綱目》”,“花崗岩”