python lxml中etree的簡單應用3

阿新 • • 發佈：2019-01-29

本次主要介紹，無論使用的xpath表示式中是否包含text()方法，最後都可以獲取目標標籤下的文字。使用的依然是etree.HTML和etree.tostring方法。

1.思路

首先將字串原始碼轉換成_Element物件，然後使用_Element物件的xpath()方法解析xpath表示式。如果通過xpath表示式解析得到的是文字物件，那麼先將文字物件（也是字串）轉換成_Element物件，最後通過etree.tostring方法獲取_Element物件中的文字內容（可以參考這裡）。

2.程式碼實現

程式碼如下：

# encoding=utf8

from lxml import etree

def to_text(string, expr):
	elements = etree.HTML(string)
	data = elements.xpath(expr)[0]
	if isinstance(data, str):
		data = data.strip()
		if not data:
			return None
		data = etree.HTML(data)
	return etree.tostring(data, method='text').strip()

html = '''
		<h1>12345</h1>
		<script>js</script>
		<h2>
			<a id="1223" target="_blank" href="test">This is a test</a>
		</h2>'''
print to_text(html, '//h1')
print '-' * 20
print to_text(html, '//h2')
print '-' * 20
print to_text(html, '//a')
print '-' * 20
print to_text(html, '//a/text()')
print '-' * 20
print to_text(html, '//script')
print '-' * 20

執行結果：

12345
--------------------
This is a test
--------------------
This is a test
--------------------
This is a test
--------------------
js
--------------------

3.注意事項

當xpath表示式中使用//text()的時候，上面的方法可能就不適用了，因為//text()找到的文字節點有多個。在上面的例子中，找到的第一個節點是一個換行符和製表符的組合，這也是為什麼to_text函式中會對data.strip()做判斷和處理。在to_text函式中print一下就能明白了：

# encoding=utf8

from lxml import etree

def to_text(string, expr):
	elements = etree.HTML(string)
	data = elements.xpath(expr)[0]
	if isinstance(data, str):
		print 'data is: ', repr(data)
		data = data.strip()
		if not data:
			return None
		data = etree.HTML(data)
	return etree.tostring(data, method='text').strip()

html = '''
		<h1>12345</h1>
		<script>js</script>
		<h2>
			<a id="1223" target="_blank" href="test">This is a test</a>
		</h2>'''
result = to_text(html, '//h2//text()')
print 'result: ', result

執行結果：

data is:  '\n\t\t\t'
result:  None

python lxml中etree的簡單應用3

python lxml中etree的簡單應用3

python lxml中etree的簡單應用1

RSA演算法在Python Django中的簡單應用

Python在數學建模中的簡單應用

工廠模式在Unity中的簡單應用

談談Circuit Breaker在.NET Core中的簡單應用

Python下MongoDB的簡單應用

關於python matplotlib的一些簡單應用

機器學習：奇異值分解SVD簡介及其在推薦系統中的簡單應用

JWT在node中的簡單應用

使用python操作redis及簡單應用

javaweb Filter在工作中的簡單應用[從學習到工作(三)]

VS2005中GridView簡單應用

【筆記】HMM在股票指數中的簡單應用

RabbitMQ在java-web中的簡單應用

python裝飾器的簡單應用

以爬取“我要愛死你”貴州行政區劃為例，淺析lxml中etree的用法

奇異值分解SVD簡介及其在推薦系統中的簡單應用

Python學習中的關鍵點1.3

支援向量機(SVM)理解以及在sklearn庫中的簡單應用

python lxml中etree的簡單應用3

相關推薦