提取 xml 檔案中的 CDATA 資料

阿新 • • 發佈：2018-12-26

mywang88

2018-12-26

簡介

XML 是常見的資料格式。

解析器往往會忽略 XML 檔案中 <![CDATA[ 資訊 ]]> 區段的內容，但有時我們是需要抓取這些內容的。

搜尋了下這個問題，沒找到較好的回答，自己解決。

本文的開發場景為：

程式語言：Python 3.7.0
使用了 Scrapy 爬蟲框架的 Selector 類和它的 xpath 選擇器（方法）
使用了 requests 庫

方法

總結為一句話：

直接把整個文件中所有 <![CDATA[ 資訊 ]]> 這東西 資訊

兩邊的字元抹掉。

簡單暴力，不需要匯入其它任何依賴。

XML 檔案示例：

<Item>
	<YEAR>
		<![CDATA[ 1999 ]]>
	</YEAR>
	<CITING>
		<![CDATA[ 0 ]]>
	</CITING>
</Item>

解析程式示例：

import requests
import scrapy

url = 'http://xml檔案的地址'
# 獲取 xml 檔案
res = requests.get(url)
# 替換，就是這麼暴力
text = 
 res.text.replace('<![CDATA[', '').replace(']]>', '')
# 建立一個 Selector 類的例項
sel = scrapy.Selector(text=text)
# 使用 xpath 選擇器
year_list = sel.xpath('//year/text()').extract()

問題解決。

提取 xml 檔案中的 CDATA 資料

mywang88 2018-12-26 簡介 XML 是常見的資料格式。解析器往往會忽略 XML 檔案中 <![CDATA[ 資訊 ]]> 區段的內容，但有時我們是需要抓取這些內容的。搜尋了下這個問題，沒找到較好的回答，自己解決。本文的開發場景為：

Mybatis的mapper.xml檔案中插入資料返回自增主鍵

使用MyBatis往MySQL資料庫中插入一條記錄後，返回該條記錄的自增主鍵值。Mapper檔案應該怎麼寫呢？ Mybatis的Mapper的標籤中有一個屬性，我們一起來看看： useGenerateKeys這個屬性，意思就是使用自增。我們需要將這個欄位設定為 true 。同時，還需

Python3提取xml檔案中的內容

import xml.dom.minidom def find_child(Par_nodes, mystr): for child_node in Par_nodes: if(len(child_node.childNodes) > 0):

如何讀並提取TXT檔案中的資料到陣列中

第一次寫文章，並且內容比較簡單。主要背景是目前的CDIO需要提取出來自txt檔案中的座標，並且放入陣列中進行自動建模。後者仍在進行，前者基本完成，雖然十分簡單。主要思路是使用了fstream，並採用了stringstream進行字元轉換。#include<iostrea

將資料庫查詢資料封裝到XML檔案中，進行格式化處理，並進行加密操作，和解密操作

1.pom檔案 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.7&l

mapper.xml檔案中獲取最新插入資料的主鍵

在開發過程中，我們常常用到在插入資料時，需要得到剛插入的資料的主鍵，MySQL中有以下做法： 1、推薦使用 <insert id="addVehicleParam" parameterType="com.corp.dto.VehicleParamAddDt

如何獲取web專案hibernate.cfg.xml配置檔案中的資料

有時候想要獲取hibernate.cfg.xml配置檔案中的資料，網路上有很多方法，有的很複雜，這裡我介紹一種很簡單的獲取方法。 hibernate.cfg.xml配置檔案中有連線資料庫所需的各種資訊，比如這裡要獲取connection.url欄位對應的url資料，如下所示

php獲取資料夾中所有lrc格式檔案,提取lrc檔案中內容

功能說明: 一個資料夾內有MP3檔案和lrc(歌詞檔案),我要提取資料夾下所有的lrc檔案內容中的標題. 一個lrc檔案的內容像這樣: [al:新概念英語（一）] [ar:MP3 同步字幕版（美音）] [ti:Sorry, Sir.] [00:00

C#程式中：如何修改xml檔案中的節點（資料）(

要想在web等程式中實現動態的資料內容給新（如網頁中的Flash），不會更新xml檔案中的節點（資料）是遠遠不夠的，今天在這裡說一個簡單的xml檔案的更新，方法比較基礎，很適合初學者看的，保證一看就懂！ ------------------程式環境下xml檔案中的節點、元

【String.xml】修改Android中strings.xml檔案, 動態改變資料

有些朋友可能會動態的修改Android中strings.xml檔案中的值，在這裡給大家推薦一種簡單的方法。strings.xml中節點是支援佔位符的，如下所示： <string name="data">整數型:%1$d，浮點型：%2$.2f，字串:%3$s&

XML檔案中如何讀取xxx.properties檔案中的資料

<bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource"><property name="jdbcUrl" v

使用正則表示式對xml檔案中資料字典進行整理

在工作中，需要對xml檔案中資料字典進行整理。 SQL> create table t1(text varchar2(4000)); 表已建立。 SQL> insert into t1 values(' <enumeration id

將二進位制資料放在XML檔案中。

一、為什麼要把二進位制資料放在XML檔案中？說到這個問題我想所有XML的好處都可以算作是將二進位制資料放在XML檔案中的好處了；此外，對於後續的檔案解析工作，我們可以充分利用現在的XML的訪問介面進行解析，從而降低了解析工作量，也就是說站在巨人的肩膀上。二、兩個關鍵知識點

從xml或yml檔案中讀取資料

CvFileStorage：檔案儲存器，這是資料持久化和RTTI部分基礎的資料結構，該部分的其他函式均通過此結構來訪問檔案。 typedef struct CvFileStorage { int flags; int is_xml; int write_mode; int i

python讀取yaml檔案中的資料

注意：在python2中進行讀取方式有兩種程式碼中的其中一種方式以註釋的形式展現出來： yaml中檔案的內容如下： 'top寬度:': '27' # ----------- 必須 ----------------------- # 計算機使用者名稱 username: onepoi

◮ R語言筆記(五): 讀取外部檔案中的資料

★R語言也提供了多種讀取外部檔案中資料的方法，而且還有第三方包額外具有相關功能： ★下面介紹三種讀取方法：從.txt檔案中讀取從clipboard（剪下板）中讀取

提取加密檔案中的pdf

買的考研資料電子版是加密的exe，只能在Windows系統檢視，很不方便，其實我們可以把其中的pdf提取出來。這種方法適用於在有閱讀密碼的情況下，提取pdf檔案。思路：剛開始在網上看到網友說替換pdf中的endstream之前的內容，對於普通的pdf檔案來說，會缺少前幾頁，這

@PropertiesSource註解讀取配置檔案中的資料

這是properties配置檔案。資料結構。注入物件。或者：使用物件獲取屬性值。或者：瞭解：=========================================

mybatis xml檔案中的大於、小於、及like模糊查詢的寫法

在xml中，特殊符號的轉義寫法如下： < < > > <> <> & & &

python 從檔案中讀取資料，同時去除掉空格和換行

從檔案中讀取資料，同時去除掉空格和換行，程式碼如下 import numpy as np def sort(path): w = open(path,'r') l = w.readlines() col=[] for k in l: k = k.strip('\n')

提取 xml 檔案中的 CDATA 資料

簡介

方法

相關推薦