python lxml中etree的簡單應用3
阿新 • • 發佈:2019-01-29
本次主要介紹,無論使用的xpath表示式中是否包含text()方法,最後都可以獲取目標標籤下的文字。使用的依然是etree.HTML和etree.tostring方法。
1.思路
首先將字串原始碼轉換成_Element物件,然後使用_Element物件的xpath()方法解析xpath表示式。如果通過xpath表示式解析得到的是文字物件,那麼先將文字物件(也是字串)轉換成_Element物件,最後通過etree.tostring方法獲取_Element物件中的文字內容(可以參考這裡)。
2.程式碼實現
程式碼如下:
# encoding=utf8 from lxml import etree def to_text(string, expr): elements = etree.HTML(string) data = elements.xpath(expr)[0] if isinstance(data, str): data = data.strip() if not data: return None data = etree.HTML(data) return etree.tostring(data, method='text').strip() html = ''' <h1>12345</h1> <script>js</script> <h2> <a id="1223" target="_blank" href="test">This is a test</a> </h2>''' print to_text(html, '//h1') print '-' * 20 print to_text(html, '//h2') print '-' * 20 print to_text(html, '//a') print '-' * 20 print to_text(html, '//a/text()') print '-' * 20 print to_text(html, '//script') print '-' * 20
執行結果:
12345
--------------------
This is a test
--------------------
This is a test
--------------------
This is a test
--------------------
js
--------------------
3.注意事項
當xpath表示式中使用//text()的時候,上面的方法可能就不適用了,因為//text()找到的文字節點有多個。在上面的例子中,找到的第一個節點是一個換行符和製表符的組合,這也是為什麼to_text函式中會對data.strip()做判斷和處理。在to_text函式中print一下就能明白了:
# encoding=utf8 from lxml import etree def to_text(string, expr): elements = etree.HTML(string) data = elements.xpath(expr)[0] if isinstance(data, str): print 'data is: ', repr(data) data = data.strip() if not data: return None data = etree.HTML(data) return etree.tostring(data, method='text').strip() html = ''' <h1>12345</h1> <script>js</script> <h2> <a id="1223" target="_blank" href="test">This is a test</a> </h2>''' result = to_text(html, '//h2//text()') print 'result: ', result
執行結果:
data is: '\n\t\t\t'
result: None