『Re』知識工程作業_主體識別

阿新 • • 發佈：2017-11-26

lib cname line lin 兩種 list loss pytho mat

作業要求

技術分享圖片

環境路徑

類似於這樣的，一共50篇文檔，

技術分享圖片

均為中文文檔，是法院判決書的合集。

程序

程序如下，我完全使用正則表達式來實現功能，

import re
import glob
import copy

name_list = glob.glob(‘./*.txt‘)

date_totul = []
indictee_totul = []
court_totul = []
procuratorate_totul = []
with open(‘./result.txt‘,‘a‘,encoding=‘utf-8‘) as f_r:
    for name in name_list:
        f_r.write(‘<{0}>\n\n‘.format(name.split(‘\\‘)[-1]))
        with open(name,encoding=‘utf-8‘) as f:
            lines = f.read()

            # 時間匹配
            #xxxx年xx月xx日；同年xx月xx日；xxxx年xx月x旬；xxxx年xx月底；xxxx年xx月；xx月xxx日
            # |優先匹配前面的，無符合才匹配後面的
            pattern_t = re.compile(
                ‘[0-9〇一二三四五六七八九]{4}年.{1,2}月.{1,3}日‘
                ‘|同年.{1,2}月.{1,3}日‘
                ‘|[0-9〇一二三四五六七八九]{4}年.{1,2}月.{1}旬‘
                ‘|[0-9〇一二三四五六七八九]{4}年.{1,2}月底‘
                ‘|[0-9〇一二三四五六七八九]{4}年.{1,2}月‘
                ‘|[0-9〇一二三四五六七八九十]{1,2}月.{1,3}日‘)
            date_step = [date for date in pattern_t.findall(lines)]
            # print(date_step)
            for i in date_step:
                f_r.write(‘<time>{0}</time>\n\n‘.format(i))
            date_totul.extend(date_step)

            # 被告匹配
            pattern_i = re.compile(‘被告人(.{2,4}?)[,，]|被上訴人：(.+?)。|被執行人：(.+?)。‘)
            pattern_i2 = re.compile(‘被申訴人\（.+\）：(.+)。|被申請人\（.+\）：(.+)。‘)
            defendant = list(set([item[0] for item in re.findall(pattern_i,lines) + pattern_i2.findall(lines) if ‘死刑‘ not in item[0]]))

            if defendant != [] and defendant != [‘‘]:
                print(defendant)

                # indictee_totul.append(indictee_step)
                for item in defendant:
                    f_r.write(‘<defendant>{0}</defendant>\n\n‘.format(item))

            # 法院匹配
            pattern_c = re.compile(‘[\n。,，《；](.{,15}?人民法院)‘)
            _court_list =  [name.group(1) for name in pattern_c.finditer(lines)]
            _court_step = []
            # print(_court_list)
            for _court in _court_list:
                _court_step.append(_court.split(‘。‘)[-1]
                                   .split(‘，‘)[-1]
                                   .split(‘《‘)[-1]
                                   .split(‘、‘)[-1]
                                   .split(‘；‘)[-1])
                _court_step = list(set(_court_step))
                for court_name in _court_step:
                    if ‘由‘ in court_name or                                    ‘向‘ in court_name or                                     ‘受‘ in court_name or                                     ‘和‘ in court_name:
                        # print(name)
                        _court_step.append(court_name.split(‘由‘)[-1].
                                           split(‘向‘)[-1].
                                           split(‘受‘)[-1].
                                           split(‘和‘)[-1])
                        _court_step.remove(court_name)
                        # print(_court_step)
                    if ‘不服‘ in court_name or                                     ‘後被‘ in court_name or                                     ‘報請‘ in court_name or                                     ‘書證‘ in court_name or                                     ‘核準‘ in court_name or                                     ‘指令‘ in court_name or                                     ‘維持‘ in court_name or                                     ‘撤銷‘ in court_name or                             ‘參照‘ in court_name:
                        _court_step.append(copy.deepcopy(court_name[2::]))
                        _court_step.remove(court_name)

                    _court_step = list(set(_court_step))
                    if ‘人民法院‘ in _court_step:
                        _court_step.remove(‘人民法院‘)

            for i in _court_step:
                f_r.write(‘<court>{0}</court>\n\n‘.format(i))
            # print(name,_court_step)

            # 檢察院匹配
            pattern_p = re.compile(‘審理(.+)指控‘)
            procuratorate_step = list(set([name.group(1) for name in pattern_p.finditer(lines)]))
            procuratorate_totul.extend(procuratorate_step)
            # print(name,procuratorate_step)
            for i in procuratorate_step:
                f_r.write(‘<procuratorate>{0}</procuratorate>\n\n‘.format(i))

            # 地點匹配
            pattern_pl_1 = re.compile(‘(.{2}省.+?縣)‘)
            pattern_pl_2 = re.compile(‘.{2}省.{2}市‘)
            pattern_pl_3 = re.compile(‘.{2}省.+?自治州‘)
            pattern_pl_4 = re.compile(‘.{2}省.+?鄉‘)
            pattern_pl_5 = re.compile(‘.{2}市.{2}區‘)
            pattern_pl_6 = re.compile(‘.{2}市.{2}鎮‘)
            pattern_pl_7 = re.compile(‘.{2}市.+?開發區‘)
            place_step = list(set([name.group(0) for name in pattern_pl_1.finditer(lines)]))
            place_step.extend(list(set([name.group(0) for name in pattern_pl_2.finditer(lines)])))
            place_step.extend(list(set([name.group(0) for name in pattern_pl_3.finditer(lines)])))
            place_step.extend(list(set([name.group(0) for name in pattern_pl_4.finditer(lines)])))
            place_step.extend(list(set([name.group(0) for name in pattern_pl_5.finditer(lines)])))
            place_step.extend(list(set([name.group(0) for name in pattern_pl_6.finditer(lines)])))
            place_step.extend(list(set([name.group(0) for name in pattern_pl_7.finditer(lines)])))
            place_step_n = []
            for place_name in place_step:
                if len(place_name)<=15:
                    # print(name,place_name)
                    place_step_n.append(place_name)
                if ‘××‘ in place_name:
                    if place_name in place_step_n:
                        place_step_n.append(place_name.split(‘××‘)[0])
                        place_step_n.remove(place_name)
                if ‘XX‘ in place_name:
                    if place_name in place_step_n:
                        place_step_n.append(place_name.split(‘XX‘)[0])
                        place_step_n.remove(place_name)
        #     print(name, [(len(item)) for item in place_step_n])
        # print(name,place_step,len(place_step))
        # print(name,place_step_n,len(place_step_n))
        for i in place_step_n:
            f_r.write(‘<location>{0}</location>\n\n‘.format(i))
        f_r.write(‘</{0}>\n\n‘.format(name.split(‘\\‘)[-1]))

截取結果文檔中某一文件的結果貼出來，展示如下，

<11273.txt>

<time>1991年7月3日</time>

<time>2008年8月7日</time>

<time>2008年9月16日</time>

<time>2009年3月18日</time>

<time>2011年2月6日</time>

<time>2012年2月2日</time>

<time>2013年3月28日</time>

<time>2013年6月14日</time>

<time>2014年4月14日</time>

<time>2014年10月27日</time>

<time>2013年5月8日</time>

<time>5月10日</time>

<time>二〇一五年二月二十七日</time>

<defendant>楊飛程</defendant>

<court>雲南省麗江市中級人民法院</court>

<court>雲南省高級人民法院</court>

<court>最高人民法院</court>

<procuratorate>麗江市人民檢察院</procuratorate>

<location>雲南省麗江市</location>

<location>雲南省大理市</location>

<location>麗江市古城區</location>

<location>大理市</location>

</11273.txt>

re總結

這次使用了不少這則表達式，雖然不怎麽高深，不過還是略有心得，特此總結一下。

這裏給出一個比較完備的正則表達式介紹，但是自己的使用還是有一些自己的理解重點，所以這篇文章還要繼續233

幾個基礎函數

re.compile(pattern, flags=0)

將正則表達式模式編譯成一個正則表達式對象，它可以用於匹配使用它的match ()和search ()等方法。

實際有兩種使用方式：

　　pattern.匹配方法(string) 或者 re.匹配方法(pattern,string)

使用或|來強化匹配規則：

pattern_t = re.compile(
                ‘[0-9〇一二三四五六七八九]{4}年.{1,2}月.{1,3}日‘
                ‘|同年.{1,2}月.{1,3}日‘
                ‘|[0-9〇一二三四五六七八九]{4}年.{1,2}月.{1}旬‘
                ‘|[0-9〇一二三四五六七八九]{4}年.{1,2}月底‘
                ‘|[0-9〇一二三四五六七八九]{4}年.{1,2}月‘
                ‘|[0-9〇一二三四五六七八九十]{1,2}月.{1,3}日‘)

re.findall(pattern, string, flags=0): 返回字符串

re.finditer(pattern, string, flags=0): 返回一個叠代器符合

正則表達式叠代器對象

之所以單提出來，是因為叠代器在匹配組groups的時候真的好用，

pattern_c = re.compile(‘[\n。,，《；](.{,15}?人民法院)‘)
_court_list = [name.group(1) for name in pattern_c.finditer(lines)]

group(1)表示匹配到的符合第一組的部分，2、3……類推，而0表示包含全部匹配的各個組結果的元組。

貪婪匹配

比如正則表達式：

‘審理(.+)指控‘

我希望不去貪婪匹配，那麽應該是

‘審理(.+)指控？‘

而非

‘審理(.+？)指控‘

『Re』知識工程作業_主體識別

lib cname line lin 兩種 list loss pytho mat 作業要求環境路徑類似於這樣的，一共50篇文檔，均為中文文檔，是法院判決書的合集。程序程序如下，我完全使用正則表達式來實現功能， import re import glob

『Re』正則表達式模塊_常用方法記錄

compile 模式 pre 表達返回字符串 sof 經典用法 color 『Re』知識工程作業_主體識別一個比較完備的正則表達式介紹幾個基礎函數 re.compile(pattern, flags=0) 將正則表達式模式編譯成一個正則表達式對象，它可以用於匹配使用

『TensorFlow』徒手裝高達_初號機_添加訓練模組並整合為可用分類網絡

正則 basename eth enum 結構 __name__ 第一個 sce 選擇摘要：本次整合了前面兩節的模組，並添加向前傳播&反饋訓練部分，使之成為一個包含訓練&驗證&測試的分類網絡。文件架構：代碼整合： image_info.py

『TensorFlow』徒手裝高達_戰鬥數據收集模塊原型_save&restore

inf jpg dai rand port logs float code 模塊順便一提，上節定義的網絡結構有問題，現已修改，之後會陸續整理上來。兩種常用（我會的）的加載方式：1. ‘‘‘ 使用原網絡保存的模型加載到自己重新定義的圖上可以使用python變量名加載模型

『python』科學計算專項_科學繪圖庫matplotlib學習之繪制動畫（待續）

同時 func 動作 .com block save init [] first 示例代碼簡單調用繪圖 from matplotlib import pyplot as plt import matplotlib.animation as animation impor

『python』科學計算專項_科學繪圖庫matplotlib學習(下)

時序 nco 字符 color 由於 enc -- angle fig 基本的讀取csv文件並繪制餅圖由於之前沒有過實際處理的經驗，所以這個程序還是值得一看，涉及了處理表格數據的基本方法： import matplotlib.pyplot as plt import p

『理論』科學計算專項_線性代數幾何原理剖析

str tar 是否數學這就是 cti bsp 存在 amp 矩陣左乘向量的兩種理解 1，矩陣左乘向量可以理解為對向量進行線性變換探究原理的話，可以理解左乘為對整個空間（基&目標向量）進行線性變換，其中，變換矩陣是基‘在基的坐標的列向量組合目標向量是向量

『TensorFlow』測試項目_對評論分類

分布一個 get string argmax 重復 view normalize blog 數據介紹 neg.txt：5331條負面電影評論 pos.txt：5331條正面電影評論函數包自然語言工具庫 Natural Language Toolkit 下載nlt

『PyTorch』第五彈_深入理解Tensor對象_中上：索引

nbsp 使用 gpo 簡單深入理解 pre 需要 sub ext 一、普通索引示例 a = t.Tensor(4,5) print(a) print(a[0:1,:2]) print(a[0,:2]) # 註意和前一種索引出來的值相同，shape不同 print(

『PyTorch』第五彈_深入理解Tensor對象_中下：數學計算以及numpy比較

python 輸入簡單相對 range pri std lin block 一、簡單數學操作 1、逐元素操作 t.clamp(a,min=2,max=4)近似於tf.clip_by_value(A, min, max),修剪值域。 a = t.arange(0,6).

『PyTorch』第五彈_深入理解autograd_上：Variable

ogr runt 無需 nbsp 移除數值 port auto hasattr 一、Variable類源碼簡介 class Variable(_C._VariableBase): """ Attributes: data: 任意類型的封

『PyTorch』第五彈_深入理解autograd_下：Variable梯度探究

def int 用法 req 就是 gpo size ble 節點查看非葉節點梯度的兩種方法在反向傳播過程中非葉子節點的導數計算完之後即被清空。若想查看這些變量的梯度，有兩種方法：使用autograd.grad函數使用hook autograd.grad和ho

『PyTorch』第五彈_深入理解autograd_下：函數擴展&高階導數

return turn 都是誤差 log inpu 能夠 () 是否一、封裝新的PyTorch函數繼承Function類 forward：輸入Variable->中間計算Tensor->輸出Variable backward：均使用Variable 線性映

『PyTorch』第六彈_最小二乘法的不同實現手段(待續)

int pri back imp python return red 最小 num PyTorch的Variable import torch as t from torch.autograd import Variable as V import matplotlib.

『PyTorch』第十彈_循環神經網絡

() rom tac stack 區別 div .com and tput 『cs231n』作業3問題1選講_通過代碼理解RNN&圖像標註訓練對於torch中的RNN相關類，有原始和原始Cell之分，其中RNN和RNNCell層的區別在於前者一次能夠處理整個序列，

『Numpy』內存分析_利用共享內存創建數組

highlight block 標識查看空間 types length PE 獲取引、內存探究常用函數 id()，查詢對象標識，通常返回的是對象的地址 sys.getsizeof()，返回的是這個對象所占用的空間大小，對於數組來說，除了數組中每個值占用空間外，數

『MXNet』第五彈_多GPU並行程序設計

計算模型 line lam 裏的完整 .so doc params 對象資料原文一、概述思路假設一臺機器上有k個GPU。給定需要訓練的模型，每個GPU將分別獨立維護一份完整的模型參數。在模型訓練的任意一次叠代中，給定一個小批量，我們將該批量中的樣本劃分成k份

『MXNet』第六彈_數據處理API（待續）

convert lena PE color bus AS array 維度 shuff 一、Gluon數據加載圖片數據(含標簽)加載函數：gluon.data.vision.ImageFolderDataset 給出ImageFolderDataset類的描述，

『MXNet』第七彈_分類器demo示意

padding NPU output nump class tensor rac 檢測 HA 解壓文件命令： with zipfile.ZipFile(‘../data/kaggle_cifar10/‘ + fin, ‘r‘) as zin:

『MXNet』第八彈_物體檢測之SSD

out can RR AS upd 全部 ask 類別 clu 預、API介紹 mxnet.metric from mxnet import metric cls_metric = metric.Accuracy() box_metric = metric.

『Re』知識工程作業_主體識別

作業要求

環境路徑

程序

re總結

幾個基礎函數

正則表達式叠代器對象

貪婪匹配

相關推薦