python處理類xml檔案遇到的坑

阿新 • • 發佈：2019-01-16

首先先確定xml檔案有兩個特點容易忽視，
1、xml檔案有且只有一個根節點
2、xml檔案的標籤的屬性都有引號“”
這裡寫圖片描述
由於對xml檔案不熟，並且對python處理xml檔案不熟，故這兩個坑用了將近一天的時間來填，謹記

說到填坑，要特備感謝一駐馬店的老鄉“駐馬店bd”qq已備註。不是他的幫助，估計還要整好長時間。特此感謝，雖然他看不到。

那麼我處理的檔案到底什麼樣子呢，請看圖：
這裡寫圖片描述

就這這麼個德行，一缺少根節點（在檔案開頭結尾補上即可），二標籤的屬性缺少引號（使用正則表示式在id=x加上引號就行了id=”x”）。

（自強不息）

——————————————————————————————————————————————
2017.02.19記錄
記得有點亂哈。
這次總結下，我之所以要一直使之成為合法的xml檔案，是因為我要提取xml檔案裡面的屬性。可能轉的圈有點大。但是目前我也沒什麼好的辦法。先按著這個方法來唄。
要想成為一個合法的xml檔案，除了滿足上面的兩點，還有一點也要滿足

即屬性裡不能有特殊的字元（如<>、&、（）等等不知道的字元）。有的話，就沒辦法當成一個xml檔案進行解析。所以要去掉這些字元。這裡我選擇使用正則表示式去匹配去除。

——————————————————————————————————————
以下是2017.02.20記錄
經歷過這近三天的經歷，我突然意識到也許作者在寫這個檔案時，就不是按照xml格式來寫的，導致按照xml檔案格式來處理千難萬難。這樣的判斷來自以下兩點：
1、加入是合法的xml檔案，那麼這個標籤的屬性裡面就不會包含尖括號<>等這樣的非法字元。
2、按照xml檔案來處理，這樣的非法字元很多。
綜上所述，這個檔案不能按照xml檔案來處理。

今天突然靈感一來，我決定直接提取我想要的標籤屬性：
程式碼是re+++.py

這個程式碼實現了從類xml檔案中（如上圖格式）提取出標籤屬性。
程式碼上傳至（待定）

# -*- coding: utf-8 -*-
#
# Copyright @2017 R&D, CINS Inc. (cins.com)
#
# Author: PengjunZhu <[email protected]>
#a5a
# Function:提取出原始檔案中的sunmary和short_text，將每一個human_label、summary和short_text分詞後寫在一行 

#
# time: 2017.02.20
# 提取 line中的xx
# result0 = re.findall("XX",line)  # 這裡的XX代表你要提取的某種格式的符號
# print result0[0]                 # 將提出出來的xx寫到螢幕上
#
import re
import jieba.posseg as pseg
import jieba

path1 = 'D:/LCSTS/DATA/PART_I.txt'
path2 = 'D:/LCSTS/DATA1/PART_I_comb.txt'

file1 = open(path1, 'r')
file2 = open(path2, 'w')
# file2.write('<ddoc>'+'\n')
i = 0
print '程式開始'
print '程式執行中...'
for line in file1:

    if '</short_text>' in line:  #一個文字換一行
        # print 'true'
        file2.write('\n')

    if '<doc id=' in line:
        id = re.findall("\d+",line)
        # print '文字id是：',id[0]
        # file2.write(id[0]+"##")

    if '<human_label>' in line:
        score = re.findall("\d+",line)
        # print '人工打標籤的分值：',score[0]
        file2.write(score[0]+" ")

    regex = re.compile(u'[\u4e00-\u9fa5]')     #匹配有中文字元的行
    match = regex.search(line.decode('utf-8'))  #match是一個布林值，1代表匹配到了。0代表沒有

    if match:
        line1 = re.sub("<.*?>","",line)
        line1 = line1.strip()
        line2 = line1.decode('utf-8', 'ignore') #將獲取的字串line1做decode時，指明ignore，會忽略非法字元,這樣就可以了

        words = jieba.cut(line2)      # 分詞
        line2 = " ".join(words).encode('utf-8')

        # print line2
        i += 1
        # words = pseg.cut(line1)     # 分詞+詞性標註
        # for word, flag in words:
        #     print word +'/'+ flag
        file2.write(line2+" ")
    else:
        pass
print i
file1.close()
# file2.write('</ddoc>'+'\n')
file2.close()
print '程式結束'

python處理類xml檔案遇到的坑

python處理類xml檔案遇到的坑

用python快速製作xml檔案

Python讀寫XML檔案

Java用String 擷取方式解析xml檔案、處理大xml檔案

python處理mp3音訊檔案:搜尋靜音(空白)時間

處理pom.xml檔案首行錯誤的解決方法

python->解析xml檔案

python處理將csv檔案1內容修改後寫入到csv2檔案

python用類讀取檔案資料並計算矩形面積

python處理gz壓縮檔案，解壓並轉化為json

批處理替換xml檔案指定內容

Python 處理iOS ipa檔案裡面的.plist

python處理多行檔案內容

Python解析大XML檔案及讀取XML不全的問題

用Python處理"大"XLS檔案

使用python處理中文csv檔案，並讓excel正確顯示中文（避免亂碼）

Python 處理HTML/XML——Beautiful Soup4

XML檔案處理工具類 ---XMLUtils

[python 學習] 使用 xml.etree.ElementTree 模塊處理 XML

python遇坑記錄-json.loads() :JSONDecodeError: Invalid escape

python處理類xml檔案遇到的坑

相關推薦