從CRF測試結果中提取出連續的標註行

阿新 • • 發佈：2018-11-10

現在在處理一批CRF標註的語料，需要將測試結果中標為B、I的行提取出來，對於連續的B、I標註行，要在一起抽出。如有以下測試語料標註結果（片斷）：
a a1 a2 O
b b1 b2 B
c c1 c2 I
d d1 d2 I
e e1 e2 O
f f1 f2 B
從中將b、c兩行合在一起抽出，f行要單獨抽取，目標結果格式如下：
[[[b,b1,b2,B],[c,c1,c2,I]],[f,f1,f2,B]]

解決思路：
1、利用根據字元切割的方法，將原始標註結果轉為列表型資料。
2、設定前後兩個遊標，遍歷列表中的每一句（標註結果中的空行表示句子結果），當發現有BI標註行時，將其抽取出來。

程式碼如下：

# -*- coding: utf8 -*- 
'''
Created on 2015-7-15

@author: admin
'''
sents=[]  #用於儲存結果的列表
tempLine=[] #用於儲存當前句的臨時列表
for eachLine in open('corpus/0701/testResult.txt','r',encoding='utf8'): #逐行讀取標結果檔案
    if(eachLine!='\n'): #如果當前行不為空
        colList=eachLine[0:-1].split('\t'); #根據製表符進行分隔，得到當前行的各列資料 

        tempLine.append(colList); # 將其追加到臨時列表中
    else: #如果當前為空行
        sents.append(tempLine); #說明一句讀完了，則新增到結果列表中
        tempLine=[]; #清空臨時列表，等待下一句
# print(sents);

dict=[]; #用於儲存最終結果的列表
for sentId in range(len(sents)): #遍歷上述程式碼片斷的結果中的句子
    tempDict=[]; #用於儲存當前捕捉到的結果的臨時列表
    firstWordId=0; #第一個遍歷當前句子的遊標 

    while(firstWordId<len(sents[sentId])-1): # 開始迴圈
        if(sents[sentId][firstWordId][-1]!='O' ): #如果發現有非O行
            secondWordId=firstWordId+1; #設定第二個遍歷當前句子的遊標，從第一個遊標的下一元素開始
            tempDict.append(sents[sentId][firstWordId]); #將當前行新增到臨時表中
            while(secondWordId<len(sents[sentId])): #開始第二個遊標的迴圈
                if(sents[sentId][secondWordId][-1]!='O'): #如果發現非O行
                    tempDict.append(sents[sentId][secondWordId]); #將當前行新增到臨時表中

                else: #如果當前行的標註結果是O，說明前面發現的標結果已經捕捉完畢，
                    break; #中斷第二個遊標的迴圈
                secondWordId+=1; #改變內層迴圈變數
            dict.append(tempDict);#當內層迴圈結束時，說明已經發現了一組標註結果了，將他們整體新增到最終結果列表中
            tempDict=[]; #清空臨時列表
        firstWordId+=1; #改變外層迴圈變數
print(dict)

從CRF測試結果中提取出連續的標註行

現在在處理一批CRF標註的語料，需要將測試結果中標為B、I的行提取出來，對於連續的B、I標註行，要在一起抽出。如有以下測試語料標註結果（片斷）： a a1 a2 O b b1 b2 B c c1 c2 I d d1 d2 I e e1 e2 O f f1 f2 B 從中將b

從字元中提取出中文

//gb2312的話preg_match_all("/[".chr(0xa1)."-".chr(0xff)."]+/", $str, $chinese);echo implode("", $chinese[0]);//utf-8的話preg_match_all("/[\x{4e00}-\x{9fa5}

WebRTC：如何從WebRTC中提取出音訊QoS程式碼(Windows下並編譯成dll庫檔案)

WebRTC版本：M66 WebRTC的語音QoS機制幾乎可以說是行業的標杆，其實現的方式主要融入了三種技術，包括丟包重傳(NACK)，前向糾錯(FEC)以及原GIPS公司的網路均衡器(NetEqualizer，簡稱NetEQ)。前兩種都是在犧牲一定成本的

從多個字典中提取相同的key

python png div 相同 com cnblogs end clas 那是有時有多個字典，需要從中提取出這些字典中共有的key #!/usr/bin/env python #coding:utf-8 [email protected]/* */:An

使用conlleval.pl對CRF測試結果進行評價的方法

val 環境進行操作神器測試方法標簽 tps 基於CRF做命名實體識別系列用CRF做命名實體識別(一) 用CRF做命名實體識別(二) 用CRF做命名實體識別(三) 評測用CRF做完命名實體識別我們測試之後得到的結果就是預測的標簽，並不能直接得到F1值等評測結

dos怎麼從檔案全路徑中提取檔名

dos怎麼從檔案全路徑中提取檔名使用 %~n 這個變數替換模式。例如在 cmd 中： set str=techcomp/menu/navigator/outlook/childMenu.js for %a in ("%str%") do (echo %~na) 輸出

postgresql 從一張表中查詢出記錄然後批量插入到另一張表中

有個業務從 appuser 表中把uid 查出來所有uid 資料，然後批量插入 app_user_sdk 表中 insert into app_user_sdk ((select uid,'MY' from appuser); 又要重複插入，又把新新增的使用者，

List集合練習題完成getAllDog 方法，從一個Animal集合中挑選出所有的Dog物件，並把這些物件放在一個Dog 集合中返回。

package cn.sc.test; import java.util.ArrayList; import java.util.List; public class TestAnimal { public static void main(String[] args) { List

挖證據的利器：如何從任何 SQLite 資料庫中提取電子郵件賬戶？#OSINT

第43–44行：關閉資料庫遊標（第43行）和SQLite檔案（第44行）的連線。第48–49行：遍歷所有匹配項並打印出來。做得好！現在讓它執行起來，以確保它可以正常工作。您可以找到 Skype 的 SQLite 檔案，如下所示：對於 Mac OSX：/Users/<your_mac_username&

從100萬個數中找出最大的前100個數

1.演算法如下：根據快速排序劃分的思想 (1) 遞迴對所有資料分成[a,b）b（b,d]兩個區間，(b,d]區間內的數都是大於[a,b)區間內的數 (2) 對(b,d]重複(1)操作，直到最右邊的區間個數小於100個。注意[a,b)區間不用劃分 (3) 返回上

（多型問題）從一個Animal陣列中挑選出所有的Dog物件，並把這些物件放在一個Dog陣列中返回

package com.day11_1; import java.util.*; public class Test9 { public static void main(String[] args) { Animal[] as = {

如何在一長字串中提取出所有數字？

1.定義正則 $ex = "/\d+/"; 2.檢測並存入陣列 $arr = []; txt = ''; preg_match_all($ex,$txt,$arr); 例： txt =

字串中找出連續最長的數字串

讀入一個字串str，輸出字串str中的連續最長的數字串輸入描述: 個測試輸入包含1個測試用例，一個字串str，長度不超過255。輸出描述: 在一行內輸出str中裡連續最長的數字串。

python 從給定的URL中提取頂級域名（TLD）

安裝 PyPI的最新穩定版本： 1 pip install tld 或者GitHub的最新穩定版本： 1 pip install https://github.com/barseghyanartur/tld/archive/stable.tar.gz 或BitBucket的最新穩定版本： 1 點選安

如何從一個父串中找出子串的個數

題目要求：輸入一個父字串，和一個子字串，編寫程式碼要求能夠實現計算出父串中子串的個數，例如：輸入父字串“hello”，輸入子字串“ll”，輸出結果為1。程式碼如下：#include <stdio.h> #include <string.h> void

從一個無序陣列中求出第K大/小的數

這個題目可以作為練習寫大/小根堆的實現，不過貌似時間複雜度還是蠻高的。在洛谷上面一道模板題上面好像就超時了幾個點，不知道是不是我實現的問題。那麼除此之外，最容易想到的方法是先對該陣列進行排序，然後取出第K或MAX-K數來。當選擇使用快排的時候，時間複雜度是$O(nlogn)$。但還有一種更優的方法是利用快排劃

使用Python中的HTMLParser、cookielib抓取和解析網頁、從HTML文件中提取連結、影象、文字、Cookies .

對搜尋引擎、檔案索引、文件轉換、資料檢索、站點備份或遷移等應用程式來說，經常用到對網頁(即HTML檔案)的解析處理。事實上，通過 Python語言提供的各種模組，我們無需藉助Web伺服器或者Web瀏覽器就能夠解析和處理HTML文件。本文上篇中，我們介紹了一個可以幫助簡化開啟

n個整數中找出連續m個數加和是最大Java版

即上一篇Python版取連續加和最大的整數後，本篇部落格帶來Java版取連續加和最大的整數。總體的思路入上一次部落格中所述，就不在過多的闡述，關鍵就在於如何應用Java API寫出相同邏輯的程式碼。

從十億資料中找出出現最多的數以及出現次數

package org.example.bigdata; import java.util.Collections; import java.util.HashMap; import java.util.LinkedList; import java.util.List

n個整數中找出連續m個數加和是最大Python版

最近在看資料時看到了一個如標題所示的面試題，面試題是Java版，正好最近在學Python，就先用Python實現了。畢竟life is short,use python（玩笑話，演算法設計思路是共同的

從CRF測試結果中提取出連續的標註行

相關推薦