農業領域的知識圖譜構建(Agriculture_KnowledgeGraph)
阿新 • • 發佈:2019-01-06
Agriculture_KnowledgeGraph
命名實體識別
進入主頁面,輸入文字,即可看到以下命名實體和分詞的結果(確保django和neo4j都處於開啟狀態):
點選實體的超連結,可以跳轉到詞條頁面:
關係查詢
關係查詢部分,我們能夠搜尋出與某一實體相關的實體,以及它們之間的關係:
知識的樹形結構
農業知識概覽部分,我們能夠列出某一農業分類下的詞條列表,這些概念以樹形結構組織在一起:
農業分類的樹形圖:
訓練集標註
我們還製作了訓練集的手動標註頁面,每次會隨機的跳出一個未標註過的詞條。連結:http://localhost:8000/tagging-get
思路
圖譜實體獲取:
1.根據19000條農業網詞條,按照篩法提取名詞(分批進行,每2000條1批,每批維護一個不可重集合)
2.將9批詞做交集,生成農業詞典
3.將詞典中的詞在互動百科中進行爬取,拋棄不存在的頁面,提取頁面內容,存到資料庫中
4.根據頁面內容,提取每一個詞條頁面的特徵,構造相似度的比較方法,使用KNN進行分類
5.最後獲取每個詞條的所屬類別,同時能夠剔除不屬於農業的無關詞條
命名實體識別:
使用thulac工具進行分詞,詞性標註,命名實體識別(僅人名,地名,機構名)
為了識別農業領域特定實體,我們需要:
1. 分詞,詞性標註,命名實體識別
2. 以識別為命名實體(person,location,organzation)的,若實體庫沒有,可以標註出來
3. 對於非命名實體部分,採用一定的詞組合和詞性規則,在O(n)時間掃描所有分詞,過濾掉不可能為農業實體的部分(例如動詞肯定不是農業實體)
4. 對於剩餘詞及詞組合,匹配知識庫中以分好類的實體。如果沒有匹配到實體,或者匹配到的實體屬於0類(即非實體),則將其過濾掉。
5. 實體的分類演算法見下文。
HudongItem
頁面分類
分類器:KNN演算法
- 無需表示成向量,比較相似度即可
- K值通過網格搜尋得到
定義兩個頁面的相似度sim(p1,p2):
-
title之間的詞向量的餘弦相似度(利用fasttext計算的詞向量能夠避免out of vocabulary) - 2組openType之間的詞向量的餘弦相似度的平均值
- 相同的baseInfoKey的IDF值之和(因為‘中文名’這種屬性貢獻應該比較小)
- 相同baseInfoKey下baseInfoValue相同的個數
- 預測一個頁面時,由於KNN要將該頁面和訓練集中所有頁面進行比較,因此每次預測的複雜度是O(n),n為訓練集規模。在這個過程中,我們可以統計各個分相似度的IDF值,均值,方差,標準差,然後對4個相似度進行標準化:(x-均值)/方差
- 上面四個部分的相似度的加權和為最終的兩個頁面的相似度,權值由向量weight控制,通過10摺疊交叉驗證+網格搜尋得到
Labels:(命名實體的分類)
Label | NE Tags | Example |
---|---|---|
0 | Invalid(不合法) | “色調”,“文化”,“景觀”,“條件”,“A”,“234年”(不是具體的實體,或一些髒資料) |
1 | Person(人物,職位) | “袁隆平”,“習近平”,“皇帝” |
2 | Location(地點,區域) | “福建省”,“三明市”,“大明湖” |
3 | Organization(機構,會議) | “華東師範大學”,“上海市農業委員會” |
4 | Political economy(政治經濟名詞) | “惠農補貼”,“基本建設投資” |
5 | Animal(動物學名詞,包括畜牧類,爬行類,鳥類,魚類,等) | “綿羊”,“淡水魚”,“麻雀” |
6 | Plant(植物學名詞,包括水果,蔬菜,穀物,草藥,菌類,植物器官,其他植物) | “蘋果”,“小麥”,“生菜” |
7 | Chemicals(化學名詞,包括肥料,農藥,殺菌劑,其它化學品,術語等) | “氮”,“氮肥”,“硝酸鹽”,“吸溼劑” |
8 | Climate(氣候,季節) | “夏天”,“乾旱” |
9 | Food items(動植物產品) | “乳酪”,“牛奶”,“羊毛”,“麵粉” |
10 | Diseases(動植物疾病) | “褐腐病”,“晚疫病” |
11 | Natural Disaster(自然災害) | “地震”,“洪水”,“饑荒” |
12 | Nutrients(營養素,包括脂肪,礦物質,維生素,碳水化合物等) | “維生素A”,”鈣” |
13 | Biochemistry(生物學名詞,包括基因相關,人體部位,組織器官,細胞,細菌,術語) | “染色體”,“血紅蛋白”,“腎臟”,“大腸桿菌” |
14 | Agricultural implements(農機具,一般指機械或物理設施) | “收割機”,“漁網” |
15 | Technology(農業相關術語,技術和措施) | “延後栽培”,“衛生防疫”,“扦插” |
16 | other(除上面類別之外的其它名詞實體,可以與農業無關但必須是實體) | “加速度”,“cpu”,“計算機”,“愛鳥周”,“人民幣”,“《本草綱目》”,“花崗岩” |