1. 程式人生 > 其它 >知識圖譜預訓練資料轉化(附原始碼)

知識圖譜預訓練資料轉化(附原始碼)

技術標籤:結構話資料格式人工智慧知識圖譜json

原始碼

#encoding : utf8

import json

with open(r’name’,‘r’,encoding=‘utf8’) as fr:
with open(r’name1.txt’,‘a’,encoding=‘utf8’) as fw:
for line in fr:
data = line.split(’\t’)
if(len(data) == 6):
train_data = dict()
train_data[‘entity1Pos’] = data[0].strip()
train_data[‘entity1’] = data[1].strip()

train_data[‘entity2Pos’] = data[2].strip()
train_data[‘entity2’] = data[3].strip()
train_data[‘statement’] = data[4].strip()
train_data[‘relation’] = data[5].strip()
train_data_json = json.dumps(train_data,ensure_ascii=False)
fw.write(train_data_json+"\n")

資料格式轉換 txt 轉化為 json 格式

一.txt抓取的資料格式:

     10	穆罕默德	70	人類	"伊瑪目阿布·優素福和穆罕默德曾說瓦合甫意味著某物件的佔用在某程度上使該物件成為了宗教財產,原有者會失去對該物件的權利,用之於真主所創造出來的人類身上。"	instance of

29 丙烯 20 烯烴 “這類有機聚合物通常由許多相同或不同的簡單烯烴分子(如乙烯、丙烯、1-丁烯、1-戊烯、1-己烯、1-辛烯、4-甲基-1-戊烯等α-烯烴以及某些環烯烴)聚合形成。” subclass of
29 丙烯 64 烯烴 “這類有機聚合物通常由許多相同或不同的簡單烯烴分子(如乙烯、丙烯、1-丁烯、1-戊烯、1-己烯、1-辛烯、4-甲基-1-戊烯等α-烯烴以及某些環烯烴)聚合形成。” subclass of
34 丁烯 20 烯烴 “這類有機聚合物通常由許多相同或不同的簡單烯烴分子(如乙烯、丙烯、1-丁烯、1-戊烯、1-己烯、1-辛烯、4-甲基-1-戊烯等α-烯烴以及某些環烯烴)聚合形成。” subclass of

34 丁烯 64 烯烴 “這類有機聚合物通常由許多相同或不同的簡單烯烴分子(如乙烯、丙烯、1-丁烯、1-戊烯、1-己烯、1-辛烯、4-甲基-1-戊烯等α-烯烴以及某些環烯烴)聚合形成。” subclass of
68 風扇 83 機械 “冷卻室兩側設有兩套獨立的迴圈冷卻水散熱器單節,分別用於冷卻來自柴油機和機油熱交換器中的迴圈水;冷卻室頂部裝有一個直徑1.4米的軸流式冷卻風扇,該冷卻風扇採用齒輪箱直接機械傳動。” subclass of
74 風扇 83 機械 “冷卻室兩側設有兩套獨立的迴圈冷卻水散熱器單節,分別用於冷卻來自柴油機和機油熱交換器中的迴圈水;冷卻室頂部裝有一個直徑1.4米的軸流式冷卻風扇,該冷卻風扇採用齒輪箱直接機械傳動。” subclass of
66 風扇 58 機械 “冷卻室兩側設有兩套獨立的迴圈冷卻水散熱器單節,分別用於冷卻來自柴油機和機油熱交換器中的迴圈水,冷卻室頂部裝有一個直接機械傳動的軸流式風扇。” subclass of
0 銳鈦礦 16 二氧化鈦 “銳鈦礦(英語:Anatase)是二氧化鈦的五種礦物形式之一, 它的名稱來源於希臘語。” instance of
20 穆罕默德 201 人類 “而在西據17世紀摩洛哥歷史學家艾哈邁德·穆罕默德·艾馬卡里(Ahmed Mohammed al-Maqqari)的記述,早在公元875年就有大量目擊者記錄,科爾多瓦的摩爾人博學家阿拔斯·伊本·弗納斯(Abbas Ibn Firnas),當時已經65歲,從科爾多瓦的城牆起飛,飛行幾百尺後又回到了出發點,但他在著陸時傷到了後背,無法再進行第二次飛行,並在12年後因後背的傷勢而去世,但這仍然被視為航空史上人類第一次成功的飛行。” instance of
3 蛆 0 幼蟲 “幼蟲似蛆,可長至長7~10毫米,乳白或淡紅色。” subclass of
6 心臟瓣膜 18 心臟 “這樣可以檢測心臟瓣膜區域功能、左右側心臟不正常聯絡、瓣膜返流、以及心臟輸出量的計算等。” subclass of
6 心臟瓣膜 33 心臟 “這樣可以檢測心臟瓣膜區域功能、左右側心臟不正常聯絡、瓣膜返流、以及心臟輸出量的計算等。” subclass of
23 原核生物 47 生物 “雖然比起80S核糖體,哺乳動物的線粒體核糖體與原核生物的70S核糖體更相似,它們仍能因對蛋白質生物合成抑制劑類抗生素敏感程度的不同而被區分開來。” parent taxon
19 社會學 10 社會科學 “何建宗獲香港中文大學社會科學學士(主修社會學)、倫敦政治經濟學院環境評估碩士及香港科技大學工商管理碩士。” subclass of
12 人體 26 身體 “正常情況下,碳水化合物經人體吸收後會轉化為葡萄糖運往身體各處及供給能量,尤其是用於維持大腦運作。” subclass of
65 堅果 13 食物 “因此在飲食上會排除高醣類的食物,例如穀類、麵包,義大利麵、其他富含澱粉或糖份的蔬菜水果、以及糖,飲食上也會增加富含脂肪的食物,例如堅果、奶油、牛油、椰子油、牛油果等等。” subclass of
65 堅果 60 食物 “因此在飲食上會排除高醣類的食物,例如穀類、麵包,義大利麵、其他富含澱粉或糖份的蔬菜水果、以及糖,飲食上也會增加富含脂肪的食物,例如堅果、奶油、牛油、椰子油、牛油果等等。” subclass of
65 微生物 53 生物 “據瞭解,該所分為流行病學、細菌學、免疫學、生化學、產程學以及病毒學6個科研小組,同時擁有第四級(最高等級)生物安全實驗室,主要負責微生物生產以及疫苗的培養等生化防護工作。” subclass of
64 導彈 46 火箭 “但實際狀況則與聲稱相反,隨著中科院等軍事研究單位科技發展有所建樹,軍營一級的部隊已可配備可用火箭發射器發射的化學彈藥,一些飛機和導彈也具有化學戰攻擊能力。” subclass of
2 蔬菜 19 植物 “原生蔬菜,尤其是在亞洲和非洲地區的原生植物,亦是亞蔬中心另外一項研究重點。” subclass of

二,格式轉為json
{“entity1Pos”: “10”, “entity1”: “穆罕默德”, “entity2Pos”: “70”, “entity2”: “人類”, “statement”: ““伊瑪目阿布·優素福和穆罕默德曾說瓦合甫意味著某物件的佔用在某程度上使該物件成為了宗教財產,原有者會失去對該物件的權利,用之於真主所創造出來的人類身上。””, “relation”: “instance of”}
{“entity1Pos”: “29”, “entity1”: “丙烯”, “entity2Pos”: “20”, “entity2”: “烯烴”, “statement”: ““這類有機聚合物通常由許多相同或不同的簡單烯烴分子(如乙烯、丙烯、1-丁烯、1-戊烯、1-己烯、1-辛烯、4-甲基-1-戊烯等α-烯烴以及某些環烯烴)聚合形成。””, “relation”: “subclass of”}
{“entity1Pos”: “29”, “entity1”: “丙烯”, “entity2Pos”: “64”, “entity2”: “烯烴”, “statement”: ““這類有機聚合物通常由許多相同或不同的簡單烯烴分子(如乙烯、丙烯、1-丁烯、1-戊烯、1-己烯、1-辛烯、4-甲基-1-戊烯等α-烯烴以及某些環烯烴)聚合形成。””, “relation”: “subclass of”}
{“entity1Pos”: “34”, “entity1”: “丁烯”, “entity2Pos”: “20”, “entity2”: “烯烴”, “statement”: ““這類有機聚合物通常由許多相同或不同的簡單烯烴分子(如乙烯、丙烯、1-丁烯、1-戊烯、1-己烯、1-辛烯、4-甲基-1-戊烯等α-烯烴以及某些環烯烴)聚合形成。””, “relation”: “subclass of”}
{“entity1Pos”: “34”, “entity1”: “丁烯”, “entity2Pos”: “64”, “entity2”: “烯烴”, “statement”: ““這類有機聚合物通常由許多相同或不同的簡單烯烴分子(如乙烯、丙烯、1-丁烯、1-戊烯、1-己烯、1-辛烯、4-甲基-1-戊烯等α-烯烴以及某些環烯烴)聚合形成。””, “relation”: “subclass of”}
{“entity1Pos”: “68”, “entity1”: “風扇”, “entity2Pos”: “83”, “entity2”: “機械”, “statement”: ““冷卻室兩側設有兩套獨立的迴圈冷卻水散熱器單節,分別用於冷卻來自柴油機和機油熱交換器中的迴圈水;冷卻室頂部裝有一個直徑1.4米的軸流式冷卻風扇,該冷卻風扇採用齒輪箱直接機械傳動。””, “relation”: “subclass of”}
{“entity1Pos”: “74”, “entity1”: “風扇”, “entity2Pos”: “83”, “entity2”: “機械”, “statement”: ““冷卻室兩側設有兩套獨立的迴圈冷卻水散熱器單節,分別用於冷卻來自柴油機和機油熱交換器中的迴圈水;冷卻室頂部裝有一個直徑1.4米的軸流式冷卻風扇,該冷卻風扇採用齒輪箱直接機械傳動。””, “relation”: “subclass of”}
{“entity1Pos”: “66”, “entity1”: “風扇”, “entity2Pos”: “58”, “entity2”: “機械”, “statement”: ““冷卻室兩側設有兩套獨立的迴圈冷卻水散熱器單節,分別用於冷卻來自柴油機和機油熱交換器中的迴圈水,冷卻室頂部裝有一個直接機械傳動的軸流式風扇。””, “relation”: “subclass of”}
{“entity1Pos”: “0”, “entity1”: “銳鈦礦”, “entity2Pos”: “16”, “entity2”: “二氧化鈦”, “statement”: ““銳鈦礦(英語:Anatase)是二氧化鈦的五種礦物形式之一, 它的名稱來源於希臘語。””, “relation”: “instance of”}
{“entity1Pos”: “20”, “entity1”: “穆罕默德”, “entity2Pos”: “201”, “entity2”: “人類”, “statement”: ““而在西據17世紀摩洛哥歷史學家艾哈邁德·穆罕默德·艾馬卡里(Ahmed Mohammed al-Maqqari)的記述,早在公元875年就有大量目擊者記錄,科爾多瓦的摩爾人博學家阿拔斯·伊本·弗納斯(Abbas Ibn Firnas),當時已經65歲,從科爾多瓦的城牆起飛,飛行幾百尺後又回到了出發點,但他在著陸時傷到了後背,無法再進行第二次飛行,並在12年後因後背的傷勢而去世,但這仍然被視為航空史上人類第一次成功的飛行。””, “relation”: “instance of”}
{“entity1Pos”: “3”, “entity1”: “蛆”, “entity2Pos”: “0”, “entity2”: “幼蟲”, “statement”: ““幼蟲似蛆,可長至長7~10毫米,乳白或淡紅色。””, “relation”: “subclass of”}
{“entity1Pos”: “6”, “entity1”: “心臟瓣膜”, “entity2Pos”: “18”, “entity2”: “心臟”, “statement”: ““這樣可以檢測心臟瓣膜區域功能、左右側心臟不正常聯絡、瓣膜返流、以及心臟輸出量的計算等。””, “relation”: “subclass of”}
{“entity1Pos”: “6”, “entity1”: “心臟瓣膜”, “entity2Pos”: “33”, “entity2”: “心臟”, “statement”: ““這樣可以檢測心臟瓣膜區域功能、左右側心臟不正常聯絡、瓣膜返流、以及心臟輸出量的計算等。””, “relation”: “subclass of”}
{“entity1Pos”: “23”, “entity1”: “原核生物”, “entity2Pos”: “47”, “entity2”: “生物”, “statement”: ““雖然比起80S核糖體,哺乳動物的線粒體核糖體與原核生物的70S核糖體更相似,它們仍能因對蛋白質生物合成抑制劑類抗生素敏感程度的不同而被區分開來。””, “relation”: “parent taxon”}
{“entity1Pos”: “19”, “entity1”: “社會學”, “entity2Pos”: “10”, “entity2”: “社會科學”, “statement”: ““何建宗獲香港中文大學社會科學學士(主修社會學)、倫敦政治經濟學院環境評估碩士及香港科技大學工商管理碩士。””, “relation”: “subclass of”}
{“entity1Pos”: “12”, “entity1”: “人體”, “entity2Pos”: “26”, “entity2”: “身體”, “statement”: ““正常情況下,碳水化合物經人體吸收後會轉化為葡萄糖運往身體各處及供給能量,尤其是用於維持大腦運作。””, “relation”: “subclass of”}
{“entity1Pos”: “65”, “entity1”: “堅果”, “entity2Pos”: “13”, “entity2”: “食物”, “statement”: ““因此在飲食上會排除高醣類的食物,例如穀類、麵包,義大利麵、其他富含澱粉或糖份的蔬菜水果、以及糖,飲食上也會增加富含脂肪的食物,例如堅果、奶油、牛油、椰子油、牛油果等等。””, “relation”: “subclass of”}
{“entity1Pos”: “65”, “entity1”: “堅果”, “entity2Pos”: “60”, “entity2”: “食物”, “statement”: ““因此在飲食上會排除高醣類的食物,例如穀類、麵包,義大利麵、其他富含澱粉或糖份的蔬菜水果、以及糖,飲食上也會增加富含脂肪的食物,例如堅果、奶油、牛油、椰子油、牛油果等等。””, “relation”: “subclass of”}
{“entity1Pos”: “65”, “entity1”: “微生物”, “entity2Pos”: “53”, “entity2”: “生物”, “statement”: ““據瞭解,該所分為流行病學、細菌學、免疫學、生化學、產程學以及病毒學6個科研小組,同時擁有第四級(最高等級)生物安全實驗室,主要負責微生物生產以及疫苗的培養等生化防護工作。””, “relation”: “subclass of”}
{“entity1Pos”: “64”, “entity1”: “導彈”, “entity2Pos”: “46”, “entity2”: “火箭”, “statement”: ““但實際狀況則與聲稱相反,隨著中科院等軍事研究單位科技發展有所建樹,軍營一級的部隊已可配備可用火箭發射器發射的化學彈藥,一些飛機和導彈也具有化學戰攻擊能力。””, “relation”: “subclass of”}
{“entity1Pos”: “2”, “entity1”: “蔬菜”, “entity2Pos”: “19”, “entity2”: “植物”, “statement”: ““原生蔬菜,尤其是在亞洲和非洲地區的原生植物,亦是亞蔬中心另外一項研究重點。””, “relation”: “subclass of”}