doccano標註後的序列標註任務資料轉錄為BIO形式

阿新 • • 發佈：2021-01-01

在這裡插入圖片描述
掃碼關注公眾號“自然語言處理與演算法”，帶你搞NLP~
今兒是2020年12月31日，本年度最後一更，盆友們，2021再見！繼續努力鴨~

doccano是一個開源的語料標註工具，其可以用來標註實體識別訓練語料。但是標註之後的資料是不能直接作為訓練資料的，還需要將其轉錄一下，下面以轉錄為BIO為例。

1 doccano標註之後的資料格式（json）

{"id": 4, "text": "?生益科技主要從事覆銅板製造與銷售業務，銷售收入佔到公司總收入的81.52%。", "meta" 
: {}, "annotation_approver": null, "labels": [[1, 5, "ORG"], [32, 38, "NUM"]]}
{"id": 6, "text": "目前，益科技，已是覆銅板的龍頭企業。早在公司2018 年年報，生益科技硬質覆銅板銷售總額全球排名第二。", "meta": {}, "annotation_approver": null, "labels" 
: [[31, 35, "ORG"], [22, 27, "NUM"], [3, 6, "ORG"], [20, 22, "ORG"]]}
{"id": 9, "text": "專注高頻覆銅板的南通專案一期產能為100w平米/年，現逐步投產。", "meta": {}, "annotation_approver": null, "labels": [[17, 21, "NUM"]]}
{ 
"id": 10, "text": "?獲得NOKIA、華為、中興、浪潮、格力、國星光電等客戶的認可。", "meta": {}, "annotation_approver": null, "labels": [[3, 8, "ORG"], [9, 11, "ORG"], [12, 14, "ORG"], [15, 17, "ORG"], [18, 20, "ORG"], [21, 25, "ORG"]]}
{"id": 11, "text": "③業績符合預期，產品未來看點足", "meta": {}, "annotation_approver": null, "labels": [[1, 3, "PRO"], [5, 7, "TAP"]]}

需要注意的是以上並不是標準的json格式，所以直接從doccano系統裡下載下來的json是不能用python直接載入的。
標準的json檔案格式如下：

[
{''''},
{'''''},
{'''''}
]

轉換程式碼如下：


def generate_json():
    '''將標註系統下載下來的檔案轉換為標準json格式'''
    f1 = open('out.json', 'w', encoding='utf-8')
    f1.write("[")
    with open('in.json', 'r', encoding='utf-8')as f2:
        lines = f2.readlines()
        k = len(lines)
        i = 0
        while i < k-2:
            f1.write(lines[i].strip() + ',\n')
            i += 1
        f1.write(lines[i].strip() + '\n')
    f1.write(']')
    f1.close()

轉換為標準格式後可以直接載入，然後將其中的資料轉錄為BIO形式。

2.轉錄為BIO

轉錄程式碼如下：

import json

def tranfer2bio():
    '''
    將json檔案中的資料轉錄為BIO形式，儲存規則可以在43行修改
    :return:
    '''
    f1 = open('./train.txt', 'w', encoding='utf-8')
    with open("./1.json", 'r', encoding='utf-8') as inf:
        load = json.load(inf)
        for i in range(len(load)):
            labels = load[i]['labels']
            text = load[i]['text']
            tags = ['O'] * len(text)
            for j in range(len(labels)):
                label = labels[j]
                #print(label)
                tags[label[0]] = 'B-' + str(label[2])
                k = label[0]+1
                while k < label[1]:
                    tags[k] = 'I-' + str(label[2])
                    k += 1
            print(tags)
            for word, tag in zip(text, tags):
                f1.write(word + '\t' + tag + '\n')
            f1.write("\n")

#tranfer2bio()

3.根據BIO序列提取實體

模型預測出對應文字的BIO序列後，如何根據序列提取實體呢？這個問題有很多解決辦法。博主這裡給出一個開源通用的解決方法[1]。
思路1：遇到B則前面存在的實體，進行一次儲存。多個i粘連一塊兒也可能被認為是一個實體。錯誤的情況是B識別成i了。對於類別判斷失誤，粘連的實體取眾數。

#標籤轉錄BIO格式
string="我是李明，我愛中國，我來自呼和浩特"
predict=["o","o","i-per","i-per","o","o","o","b-loc","i-loc","o","o","o","o","b-per","i-loc","i-loc","i-loc"]
item = {"string": string, "entities": []}
entity_name = ""
flag=[]
visit=False
for char, tag in zip(string, predict):
    if tag[0] == "b":
        if entity_name!="":
            x=dict((a,flag.count(a)) for a in flag)
            y=[k for k,v in x.items() if max(x.values())==v]
            item["entities"].append({"word": entity_name,"type": y[0]})
            flag.clear()
            entity_name=""
        entity_name += char
        flag.append(tag[2:])
    elif tag[0]=="i":
        entity_name += char
        flag.append(tag[2:])
    else:
        if entity_name!="":
            x=dict((a,flag.count(a)) for a in flag)
            y=[k for k,v in x.items() if max(x.values())==v]
            item["entities"].append({"word": entity_name,"type": y[0]})
            flag.clear()
        flag.clear()
        entity_name=""
 
if entity_name!="":
    x=dict((a,flag.count(a)) for a in flag)
    y=[k for k,v in x.items() if max(x.values())==v]
    item["entities"].append({"word": entity_name,"type": y[0]})
print(item)

{'string': '我是李明，我愛中國，我來自呼和浩特', 'entities': [{'word': '李明', 'type': 'per'}, {'word': '中國', 'type': 'loc'}, {'word': '呼和浩特', 'type': 'loc'}]}

思路2：只取B開頭的實體，其它的不要。同樣類別也是取眾數。

#標籤轉錄BIO格式
string="我是李明，我愛中國，我來自呼和浩特"
predict=["o","o","i-per","i-per","o","o","o","b-loc","i-loc","o","o","o","o","b-per","i-loc","i-loc","i-loc"]
item = {"string": string, "entities": []}
entity_name = ""
flag=[]
visit=False
for char, tag in zip(string, tags):
    if tag[0] == "b":
        if entity_name!="":
            x=dict((a,flag.count(a)) for a in flag)
            y=[k for k,v in x.items() if max(x.values())==v]
            item["entities"].append({"word": entity_name,"type": y[0]})
            flag.clear()
            entity_name=""
        visit=True
        entity_name += char
        flag.append(tag[2:])
    elif tag[0]=="i" and visit:
        entity_name += char
        flag.append(tag[2:])
    else:
        if entity_name!="":
            x=dict((a,flag.count(a)) for a in flag)
            y=[k for k,v in x.items() if max(x.values())==v]
            item["entities"].append({"word": entity_name,"type": y[0]})
            flag.clear()
        flag.clear()
        visit=False
        entity_name=""
 
if entity_name!="":
    x=dict((a,flag.count(a)) for a in flag)
    y=[k for k,v in x.items() if max(x.values())==v]
    item["entities"].append({"word": entity_name,"type": y[0]})
print(item)

{'string': '我是李明，我愛中國，我來自呼和浩特', 'entities': [{'word': '中國', 'type': 'loc'}, {'word': '呼和浩特', 'type': 'loc'}]}

2020年12月31日於上海

參考文獻
[1]BIO序列提取實體（NER命名實體識別）.https://blog.csdn.net/hqh131360239/article/details/107764716

doccano標註後的序列標註任務資料轉錄為BIO形式

技術標籤：自然語言處理python自然語言處理深度學習掃碼關注公眾號“自然語言處理與演算法”，帶你搞NLP~ 今兒是2020年12月31日，本年度最後一更，盆友們，2021再見！繼續努力鴨~

Rosalind第二題：將DNA轉錄為RNA

技術標籤：控制科學與工程python http://rosalind.info/problems/rna/ 問題的RNA串是字串從形成的字母含有“A”，“C”，“G”，和“U”。

YOLO格式標註資料轉COCO標註資料

技術標籤：目標檢測YOLOCOCO 標註這裡僅僅考慮person類別，如果考慮其他類別，則需要增加類別資訊，稍作調整即可。

labelme標註後如何生成資料集

安裝labelme環境開啟Anaconda Prompt, 直接輸入pip install labelme即可安裝

後端將資料轉化為json字串傳輸的方法詳解

前言在寫後端的c層返回欄位斷言的時候，進行對於user物件的isAdmin欄位斷言。相關實體類欄位如下

springboot 整合 ehcahe後，實現快取資料應用關閉時序列化（磁碟持久化），重啟再載入

ehcache使用很長時間了，但是卻沒有用到快取資料序列化（C#中是這麼個說法）與再載入。這次因為業務中需要對快取資料進行臨時儲存並再載入使用，實現該功能的方式多種多樣。既然ehcache有磁碟儲存機制，那就用它自帶

基於BERT Adapter的詞彙增強型中文序列標註模型

©原創作者 | 瘋狂的Max 論文Lexicon Enhanced Chinese Sequence Labelling Using BERT Adapter 解讀

TF使用例子-LSTM實現序列標註

本文主要改寫了一下\"Sequence Tagging with Tensorflow\"（https://link.jianshu.com?t=https://guillaumegenthial.github.io/sequence-tagging-with-tensorflow.html）程式。原文是基於英文的命名實體識別(named e

python 監聽salt job狀態,並任務資料推送到redis中的方法

salt分發後，主動將已完成的任務資料推送到redis中，使用redis的生產者模式，進行訊息傳送

python序列化與資料持久化例項詳解

本文例項講述了python序列化與資料持久化。分享給大家供大家參考，具體如下：

python 向量資料轉柵格資料程式碼例項

這篇文章主要介紹了python 向量資料轉柵格資料程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Tensorflow 實現將影象與標籤資料轉化為tfRecord檔案

tensorflow中如果要對神經網路模型進行訓練，需要把訓練資料轉換為tfrecord格式才能被讀取，tensorflow的model檔案裡直接提供了相應的指令碼檔案在下面的資料夾中：

js實現樹形資料轉成扁平資料的方法示例

利用遞迴的方法迴圈樹形陣列，當遇到有children的物件再次呼叫遞迴函式迴圈children陣列，每次迴圈的資料放入一個提前宣告好的數組裡，等所有遞迴函式執行完，這個陣列即是想要得到的扁平資料陣列。

pytorch讀取影象資料轉成opencv格式例項

pytorch讀取影象資料轉成opencv格式方法：先轉成numpy通用的格式，再將其轉換成opencv格式。

從鍵盤輸入一個小於1000的正數,要求輸出它的平方根(如平方根不是整數，則輸出其整數部分)。要求在輸入資料後先對其進行檢查是否為小於1000 的正數。若不是,則要求重新輸入。

5.從鍵盤輸入一個小於1000的正數,要求輸出它的平方根(如平方根不是整數，則輸出其整數部分)。要求在輸入資料後先對其進行檢查是否為小於1000 的正數。若不是,則要求重新輸入。

使用Redis獲取資料轉json,解決動態泛型傳參的問題

場景：專案有兩種角色需要不同的登入許可權，將redis做為使用者登入資訊快取資料庫。碼一個方法，希望能夠根據傳入不用使用者實體型別來獲取相應的資料。使用者實體為：SessionEntity<User1>、SessionEntity&

Centos 7 在Vmware 上設定共享資料夾，並且解決安裝VMware Tools 後不顯示共享資料夾的問題

VMware提供共享資料夾的功能，幫助使用者實現主機和虛擬機器之間資料通訊。我花了一個下午的時間才掛載成功，因此在部落格裡記錄一下VMware workstations15 共享資料夾的設定問題，幫助他人的同時順便幫助自己進行一

Vue切換元件實現返回後不重置資料,保留歷史設定操作

版權 1、<router-view ></router-view> 外層包圍<keep-alive> </keep-alive>

007.PGSQL-python讀取txt檔案，將資料轉化為dataFrame,dataFrame資料插入到pgsql; dataframe去掉索引，指定列為索引；python讀取pgsql資料,讀取資料庫表導成excel

python讀取txt檔案，將資料轉化為dataFrame,dataFrame資料插入到pgsql 1.pd.io.sql.to_sql(dataframe,\'table_name\',con=conn,schema=\'w_analysis\',if_exists=\'append\')

js獲取表格中的資料轉化為json字串

1，所需資料工商銀行 1236545878965874562 建設銀行 1236545698745632145 2，html <table border=\"1\"><thead><tr><td>開戶行</td><td>賬號</td></tr

doccano標註後的序列標註任務資料轉錄為BIO形式

1 doccano標註之後的資料格式（json）

2.轉錄為BIO

3.根據BIO序列提取實體

相關推薦