lxml基本用法總結

阿新 • • 發佈：2019-02-18

lxml庫結合libxml2快速強大的特性，使用xpath語法來進行檔案格式解析，與Beautiful相比，效率更高。

0x01 安裝

可以利用pip安裝lxml：

pip install lxml

在windows系統中安裝時，可能會出現如下錯誤：

提示如下：

error: Microsoft Visual C++ 9.0 is required (Unable to find vcvarsall.bat). Get it from http://aka.ms/vcpython27

需要安裝Microsoft Visual C++ 9.0，對應的是visual studio 2008版本。其實我們可以用一種更簡單的方式來解決這個問題。

（1）首先升級下pip：

python -m pip install -U pip

（2）安裝wheel

pip install wheel

（3）下載lxml對應python版本的wheel檔案：下載地址

其中cp27表示版本就是Python2.7，最後執行安裝：

lxml安裝完畢。

0x02 節點與屬性

Element類是lxml的一個基礎類，大部分XML都是通過Element儲存的。可以通過Element方法建立：

>>> from lxml import etree
>>> root=etree.Element('root' 
);
>>> print root.tag
root

為root節點新增子節點：

>>> child1=etree.SubElement(root,'child1')
>>> print root
<Element root at 0x2246760>
>>> print etree.tostring(root)
<root><child1/></root>

XML Element的屬性格式為Python的dict。可以通過get/set方法進行設定或獲取操作：

>>>  
root.set('id','123')
>>> id=root.get('id')
>>> id
'123'

遍歷全部屬性：

>>> for value,name in root.items():
...     print value,'\t',name
...
id      123

0x03 文字操作

Element的text屬性可以訪問標籤的文字：

>>> print etree.tostring(root)
<root id="123">root<child1 name="kikay">ttt</child1></root>
>>> root.text
'root'
>>> child1.text
'ttt'
>>>

XML的標籤是成對出現的，但是對於HTML而言，可能存在
這樣的單一標籤，可以通過tail來讀取文字：

>>> etree.tostring(root)
'<root id="123">root<child1 name="kikay">ttt</child1><br/>br_test</root>'
>>> root.tail
>>> br.tail
'br_test'

tail返回的是當前標籤到下一次出現標籤時的文字內容。

（2）xpath方式

>>> etree.tostring(root)
'<root><child1>child1 test</child1><child2>child2 test</child2></root>123'
#方法1：過濾標籤，返回全部文字
>>> root.xpath('string()')
'child1 testchild2 test'
#方法2：以標籤為間隔，返回list
>>> root.xpath('//text()')
['child1 test', 'child2 test', '123']

方法2中的list元素都攜帶了標籤的資訊，可以通過如下方式獲取：

>>> lists=root.xpath('//text()')
>>> lists
['child1 test', 'child2 test', '123']
>>> lists[0].getparent()
<Element child1 at 0x2203c60>
>>> lists[0].getparent().tag
'child1'
>>> lists[1].getparent().tag
'child2'
>>> lists[2].getparent().tag
'root'

還可以通過is_text和is_tail判斷標籤型別：

>>> lists[2].is_text
False
>>> lists[2].is_tail
True

0x04 文字輸入與輸出

lxml提供如下方式輸入文字：

fromstring():解析字串
HTML():解析HTML物件
XML():解析XML物件
parse():解析檔案型別物件

輸出就是前面講的tostring()方法：

>>> root = etree.XML('<root><a><b/></a></root>')
>>> etree.tostring(root)
'<root><a><b/></a></root>'
>>> etree.tostring(root,xml_declaration=True)
"<?xml version='1.0' encoding='ASCII'?>\n<root><a><b/></a></root>"
>>> etree.tostring(root,xml_declaration=True,encoding='utf-8')
"<?xml version='1.0' encoding='utf-8'?>\n<root><a><b/></a></root>"

0x05 標籤搜尋

可以使用find、findall或者xpath來搜尋Element包含的標籤物件。區別如下：

find():返回第一個匹配物件，並且xpath語法只能使用相對路徑（以’.//’開頭）；
findall():返回一個標籤物件的列表，並且xpath語法只能使用相對路徑（以’.//’開頭）；
xpath()：返回一個標籤物件的列表，並且xpath語法的相對路徑和絕對路徑。

>>> root = etree.XML("<root><a x='123'>aText<b/><c/><b/></a></root>")
>>> x=root.find('.//a[@x]')
>>> x
<Element a at 0x2242c10>
>>> x.text
'aText'
>>> x.tag
'a'
>>> x2=root.findall('.//a[@x]')
>>> x2
[<Element a at 0x2242c10>]
>>> type(x2)
<type 'list'>
>>> x3=root.xpath('//a[@x]')
>>> type(x3)
<type 'list'>
>>> x3
[<Element a at 0x2242c10>]

此外，lxml還支援css語法的選擇方式，對於熟悉JQuery選擇器的開發者是一個很好的補充（需要安裝pip install cssselect）：

>>> root = etree.XML("<root><a class='_123'>aText<b id='b1'/><c/><b/></a></root>")
>>> a1=root.cssselect('._123')
>>> a1[0].tag
'a'
>>> root = etree.XML("<root><a class='c123'>aText<b id='b1'/><c/><b/></a></root>")
>>> a1=root.cssselect('a')
>>> a1[0].text
'aText'
>>> a2=root.cssselect('.c123')
>>> a2[0].text
'aText'
>>> b=root.cssselect('#b1')
>>> b[0].tag
'b'

0x06 解析HTML

lxml可以通過etree.HTML()來載入一個HTML頁面:

#coding:utf-8

from lxml import etree
import  requests
from chardet import detect

url='http://tool.chinaz.com/'
resp=requests.get(url,timeout=50)
html=resp.content
#識別編碼
cder=detect(html)
html=html.decode(cder.get('encoding'))
tree=etree.HTML(html)
#列印全部a標籤
hrefs=tree.xpath('//a')
for href in hrefs:
    print href.get('href'),'\t',href.text

如果HTML頁面中的script和style變遷之間的內容影響解析頁面，可以將其清洗掉：

from lxml.html.clean import Cleaner
clear=Cleaner(style=True,scripts=True,page_structure=False,safe_attrs_only=False)
print clear.clean_html(html)

此外，可以藉助瀏覽器來幫我們生成xpath語法:

下面是提取豆瓣讀書主頁圖書資訊的例子：

#coding:utf-8

from lxml import etree
import  requests
from chardet import detect

url='https://book.douban.com/'
resp=requests.get(url,timeout=15)
ecoding=detect(resp.content).get('encoding')
html=resp.content.decode(ecoding)
tree=etree.HTML(html)
for book in tree.xpath('//div[@class="info"]'):
    title=book.xpath('.//a[@title]')[0].text.strip()
    author=book.xpath('.//div[@class="author"]')[0].text.strip()
print u'《',title,u'》','\t','--',author

結果：

《 這世界偷偷愛著你 》    -- 輝姑娘
《 我與世界只差一個你 》   -- 張皓宸
《 好好學習 》    -- 成甲
《 生育對話錄 》   -- 宋涵
《 被誤診的藝術史 》     -- 董悠悠
《 多拉•布呂代 》  -- [法] 帕特里克•莫迪亞諾
《 我們的後人類未來 》    -- [美] 弗朗西斯•福山

lxml基本用法總結

lxml庫結合libxml2快速強大的特性，使用xpath語法來進行檔案格式解析，與Beautiful相比，效率更高。 0x01 安裝可以利用pip安裝lxml： pip install lxml 在windows系統中安裝時，可能會出現如下錯誤：

vue基本用法總結

vue.js 是一個構建使用者介面的框架是一個輕量級MVVM（Model-View-ViewModel)框架，和angular，react框架類似，其實就是所謂的資料雙向繫結資料驅動+元件化的前端開發（核心思想）通過簡單的api實現**

spring boot thymeleaf基本用法總結

根據我看的文件，我建立了個簡單的spring boot +thymeleaf專案 pom.xml  <dependency> <groupId>org.springframew

Thymeleaf 基本用法總結

轉自https://www.cnblogs.com/topwill/p/7434955.html 一、引用名稱空間在html中引入此名稱空間，可避免編輯器出現html驗證錯誤，雖然加不加名稱空間對Thymeleaf的功能沒有任何影響。二、輸出內容

Static基本用法總結

/* int test::num=120; int test::getNum() { //return this->num; //錯誤：靜態成員函式中不能使用‘this’ // 靜態成員函式沒有this指標return num; } 總結：靜態成員和靜態

spring基本用法總結

使用兩年spring後，發現對spring依舊陌生，遂重新總結spring基礎用法特性：1，依賴注入的核心機制；2，Aop的宣告式事務管理；3與多種持久層結合使用；4，web MVC的優秀使用；一、下載安裝 1，http://repo.springsour

Bootstrap3 CSS樣式基本用法總結

按鈕 a,input,button都可以設定為按鈕 a標籤按鈕 <a class="btn btn-default" href="#" role="button">a標籤按鈕</a> <input

C#泛型列表List實現二維陣列的功能（令附C#泛型列表List基本用法總結）

// 搜尋有很多種方式,可以使用IndexOf LastIndexOf FindIndex FindLasIndex Find FindLas ,如果只是檢視元素存不,可以使用Exists()方法 // IndexOf() 方法需要將一個物件做引數, 如果打到,就返回本

oracle資料庫觸發器，儲存過程，定時器job，package的基本用法總結

--定時器job語法引數解析使用Submit()過程，工作被正常地計劃好。這個過程有五個引數：job、what、next_date、interval與no_parse。 PROCEDURE Submit ( job OUT binary_ineger, W

JQuery的基本用法總結

bsp ... 綁定回調函數框架 turn 自定義立即執行 idt 1、jquery概念是js的一個類庫（對js中某些功能的封裝）用jq實現的功能一定能用js實現反過來不一定，js實現的功能jq不一定能實現 2、jquery好處 1、代碼簡潔

Quartz：基本用法總結

OpenSymphony所提供的Quartz是任務排程領域享譽盛名的開源框架。Spring提供了整合Quartz的功能，可以讓開發人員以更面向Spring的方式建立基於Quartz的任務排程應用。任務排程本身設計多執行緒併發、執行時間規則制定及解析、執行現場保持與恢復、執行緒池維護等諸多方面的工作。如果以自定

06： awk基本用法 awk高階應用總結和答疑

Top NSD SHELL DAY06 案例1：使用awk提取文字案例2：awk處理條件案例3：awk綜合指令碼應用案例4：awk流程控制案例5：awk擴充套件應用 1 案例1：使用awk提取文字 1.1 問題本案例要求使用awk

sed基本用法 sed文字塊處理、 sed高階應用總結和答疑

Top NSD SHELL DAY05 案例1：sed基本用法案例2：使用sed修改系統配置案例3：sed多行文字處理案例4：sed綜合指令碼應用 1 案例1：sed基本用法 1.1 問題本案例要求熟悉sed命令的p、d、s等常見操作，並

總結常用的Transformation運算元和Action運算元，及基本用法

只有是Action時，才會執行立即操作。 Transformation是 lazy的操作，不會立即執行，執行Transformation的運算元時，會返回一個新的RDD,依賴上一個RDD transformation： 1、sortBy ：對於RDD的是非元組型，rdd1.soreB

jquery知識點總結（1）---基本用法+選擇器

瞭解jQuery 是什麼: What? 一個JS函式庫: write less, do more 封裝簡化DOM操作(CRUD) / Ajax 為什麼用它: why? 強大選擇器: 方便快

Android中Gesture手勢的基本用法（總結）

應用場景：（1）左右上下滑動螢幕的事件監聽。比如，上拉彈出自定義的底部佈局之類的，換頁之類的等等。（2）畫一些不規則的幾何圖形。執行順序： 1.手指觸碰螢幕時，觸發MotionEvent事件！ 2.該事件被OnTouchListener監聽，可在它的onTo

Android開發中Notification通知欄的基本用法（總結）

1、Notification的基本使用流程狀態通知欄主要涉及到2個類：Notification 和NotificationManagerNotification：通知資訊類，它裡面對應了通知欄的各個屬性NotificationManager：是狀態列通知的管理類，負責發通知

Ext.GridPanel 用法總結（一）—— Grid基本用法

GridPanel類是基於基礎列表介面具代表性的主要實現類。也是最常用的Ext元件之一。一：首先定義grid的資料來源 //初始化Ext狀態管理器，在Cookie中記錄使用者的操作狀態，如果不啟用，

shape的基本用法

enc schema 顏色顏色漸變 mas utf pad 半徑 start <?xml version="1.0" encoding="utf-8"?> <shape xmlns:android="http://schemas.android.com/

git branch用法總結

如果命名參數 war blank org 2.6 重命名 scm Git branch git branch 不帶參數：列出本地已經存在的分支，並且在當前分支的前面加“*”號標記，例如： #git branch* master

lxml基本用法總結

0x01 安裝

0x02 節點與屬性

0x03 文字操作

0x04 文字輸入與輸出

0x05 標籤搜尋

0x06 解析HTML

相關推薦