解析庫的使用（XPath，BeautifulSoup, pyquery）

阿新 • • 發佈：2019-02-20

從崔慶才的《Python3網路開發實戰》上總結而來

使用XPath

from lxml import etree

html = etree.HTML(text) #呼叫HTML類進行初始化

html = etree.parse(text, etree,HTML.Parser())#直接對文字進行解析，但是會多出一個DOCTYPE宣告

result = etree.tostring(html) #輸出修正後的HTML文字，是bytes型別

result.decode(‘utf-8’) #將bytes型別轉換成str型別

result = html.xpath(匹配模式)

html.xpath(‘title’) 表示選取title元素的所有子節點

html.xpath(‘/title’) 表示選取根元素 title

html.xpath(‘title /book’) 選取屬於title的子元素的所有 book 元素。

html.xpath(‘//book’) 選取所有 book 子元素，而不管它們在文件中的位置。

html.xpath(‘title //book’) 選擇屬於title 元素的後代的所有 book 元素，而不管它們位於title之下的什麼位置。

html.xpath(‘//@lang’) 選取名為 lang 的所有屬性

多層[表示式]之間用|分隔

表示式描述

nodename 選取此節點的所有子節點

/ 從根節點選取

// 從匹配選擇的當前節點選擇文件中的節點，而不考慮它們的位置

. 選取當前節點

.. 選取當前節點的父節點

@ 選取屬性

屬性匹配可以採用and or 等運算子

路徑表示式結果

/bookstore/book[1] 選取屬於 bookstore 子元素的第一個 book 元素

/bookstore/book[last()] 選取屬於 bookstore 子元素的最後一個 book 元素。

/bookstore/book[last()-1] 選取屬於 bookstore 子元素的倒數第二個 book 元素。

/bookstore/book[position()<3] 選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。

//title[@lang] 選取所有擁有名為 lang 的屬性的 title 元素。

//title[@lang=’eng’] 選取所有 title 元素，且這些元素擁有值為 eng 的 lang 屬性。

/bookstore/book[price>35.00] 選取 bookstore 元素的所有 book 元素，且其中的 price 元素的值須大於 35.00。

/bookstore/book[price>35.00]/title 選取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值須大於 35.00。

萬用字元描述

* 匹配任何元素節點

@* 匹配任何屬性節點

node() 匹配任何型別的節點

軸可定義相對於當前節點的節點集。格式軸名稱::

軸名稱結果

ancestor 選取當前節點的所有先輩（父、祖父等）。

ancestor-or-self 選取當前節點的所有先輩（父、祖父等）以及當前節點本身。

attribute 選取當前節點的所有屬性。

child 選取當前節點的所有子元素。

descendant 選取當前節點的所有後代元素（子、孫等）。

descendant-or-self 選取當前節點的所有後代元素（子、孫等）以及當前節點本身。

following 選取文件中當前節點的結束標籤之後的所有節點。

namespace 選取當前節點的所有名稱空間節點。

parent 選取當前節點的父節點。

preceding 選取文件中當前節點的開始標籤之前的所有節點。

preceding-sibling 選取當前節點之前的所有同級節點。

self 選取當前節點。

方法：

text()獲取節點中的文字

contains()，第一個引數傳入屬性名稱，第二個引數傳入屬性的值，只要此屬性包含所傳入的屬性值，就可以完成匹配。

BeautifulSoup

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 解析器)#解析器常用lxml

soup.prettify()#以標準的縮排形式輸出

soup.節點 #輸出匹配到的第一個節點

soup.節點.string #獲取節點的文字

soup.節點.name #獲取節點的名稱

soup.節點.attrs #獲取節點的所有屬性，以字典形式返回{屬性名：屬性值}

soup.節點.contents #獲得直接子節點的列表

soup.節點.children #返回子節點的生成器

soup.節點.descendants #返回遞迴所有子節點的生成器

soup.節點.parent #父節點及其內部的全部內容

soup.節點.parents #所有祖先節點及其內容，以生成器形式返回

soup.節點.next_sibling #節點的下一個兄弟節點內容

soup.節點.previous_sibling #節點的上一個兄弟節點內容

soup.節點.next_siblings #節點的後面所有兄弟節點內容，以生成器形式返回

soup.節點.previous_siblings#節點的前面所有兄弟節點內容，以生成器形式返回

方法：返回列表形式

find_all(name, attrs, recursive, text, **kwargs)

name引數其值為節點名，attrs為字典引數(當屬性名為class時，可用class_作為屬性名)，text引數用來匹配節點的文字，傳入的形式可以使字串或正則表示式物件。

find()返回的是第一個匹配的節點內容

find_parent()返回直接父節點

find_parents()返回所有祖先節點

find_next_sibling()返回後面第一個兄弟節點

find_next_siblings()返回後面的所有兄弟節點

find_previous_sibling()返回前面第一個兄弟節點

find_previous_siblings()返回前面的所有兄弟節點

find_next()返回節點後第一個符合條件的節點

find_all_next()返回節點後所有符合條件的節點

find_previous()返回節點前第一個符合條件的節點

find_all_previous()返回節點前所有符合條件的節點

pyquery

from pyquery import PyQuery as pq

需要初始化PyQuery物件，比如直接傳入字串、URL、檔名

doc = pq(html)

doc = pq(url=url)指定url引數

doc = pq(filename=filename)指定filename引數

result= =doc(#container.list li)#選取id為container的節點，再選取內部的class為list的節點內部的所有li節點

方法：返回型別為PyQuery型別

result.find(CSS選擇器)#返回所有子孫節點中符合CSS選擇器的節點

result.children(CSS選擇器)# 返回直接子節點中符合CSS選擇器的節點

result.parent(CSS選擇器)# 返回直接父節點中符合CSS選擇器的節點

result.parents(CSS選擇器)# 返回所有祖先節點中符合CSS選擇器的節點

result.siblings(CSS選擇器)#返回所有兄弟節點中符合CSS選擇器的節點

對PyQuery型別呼叫items()方法後，會得到一個生成器，

result.attr()，傳入屬性名稱就可以得到屬性值，如果傳入第二個引數則可以修改屬性值。

result.text()，如果不傳引數，則獲取節點內純文字，如果傳入引數則進行賦值。

result.html()，如果不傳引數，則獲取節點內HTML文字，如果傳入引數則進行賦值。

result.removeClass(屬性名)，將節點內的屬性移除。

result.addClass(屬性名)，新增屬性到節點。

解析庫的使用（XPath，BeautifulSoup, pyquery）

從崔慶才的《Python3網路開發實戰》上總結而來使用XPath from lxml import etree html = etree.HTML(text) #呼叫HTML類進行初始化 html = etree.parse(text, etree,HTML.

93、解析庫之re，Beautifulsoup

結果基本 strip 輸出父親 pytho 叠代器 next pan 本篇導航：介紹基本使用遍歷文檔樹搜索文檔樹總結 re模塊在之前的python進階中有講過不再做過多的闡述，本篇為BeautifulSoup庫的分析 20、collections模

遍歷win10文件夾並解析json文件，按照json格式存入mongo數據庫（基於python 3.6）

dep IT os.path efault gpo dir ren ica not import reimport jsonfrom pymongo import MongoClientimport os# def Write_json(data):# open_J

Python-爬蟲-解析庫（pyquery）的使用

pyquery安裝： pip install pyquery 初始化： 1）html字串 2）url初始化 3）本地html檔案初始化例如： 1 #pyquery使用 2 3 import requests 4 from lxml import html 5 import pyq

初觸Python,關於pyquery解析html（百度貼吧）

一直聽同事說Python是個神奇的語言，上週在逛知乎的時候深受這個話題的啟發。能利用爬蟲技術做到哪些很酷很有趣很有用的事情？先是說到IDE的選擇,作為python新人,雖然知道mac終端自帶Python,但在一番谷歌百度之後,還是選擇了PyCharm 。理由大概是 PyCharm比

關於如何在linux環境下生成a庫和so庫（改，附圖）

一般linux環境下的連結庫分為a庫和so庫，分別表示靜態連結庫和動態連結庫，其作用是把C程式編譯好做成一種可執行連結檔案，c主程式檔案呼叫這些程式的函式介面是可以使用a庫或so庫，在主程式中只需要i

eclipse下生成dll連結庫（實測，附圖）

dll連結庫是windows環境下的動態連結庫，其內容可以為C/C++程式組成，其原理與linux環境下的so庫大同小異。想要生成dll庫首先需要配置eclipse的開發環境，首先你需要個CDT元件

python中呼叫動態連結庫（C++，linux）

1，建立並編譯C++程式 #include <fstream> #include <assert.h> #include <malloc.h> #incl

DXF檔案解析顯示（讀取，合併，儲存）

專案來源：這個專案是一個老師在外面接的。最後轉給我來弄了。專案要求： 1.C#自定義控制元件，可以顯示DXF檔案，支援多張顯示（合併為一個圖）。 2.要求可以儲存合併後的圖形，儲存格式為

vue webpack 腳手架項目詳細解析系列（二，項目依賴說明 package.json）

https lin 2.6 文件並不是 route not 英文 post 繼續上一篇，上一篇講了 vue 的webpack腳手架的項目結構。那接下來我們看一下他的package.json 文件，看一下。他都用到了那些依賴。 "dependencies": {

Boost.JSON Boost的JSON解析庫（1.75首發）

## 目錄 - [目錄](#目錄) - [Boost的1.75版本新庫](#boost的175版本新庫) - [JSON庫簡介](#json庫簡介) - [JSON的簡單使用](#json的簡單使用) - [編碼](#編碼) - [最通用的方法](#最通用的方法) - [使用`std

【翻譯自mos文章】使用asm來部署超大數據庫（10TB到PB 範圍）--針對oracle 10G

2個數值 acl 5.1 transport after 例如 clas rain 使用asm來部署超大數據庫（10TB到PB 範圍）參考原文： Deployment of very large databases (10TB to PB range) with

STL語法——映射：map 反片語（Ananagrams，UVa 156）

count lower code cin mos abc 最終定義 lead Description Most crossword puzzle fans are used to anagrams--groups of words with the same let

機器人--寒暄庫（數據準備2）

bsp url lib macintosh 執行 gen art 爬蟲 time 上次說了機器人的寒暄庫需要基於seq2seq模型來做訓練，訓練的前提是我們準備好了足夠的數據。這次來說一下數據準備工作。數據的來源一般分為內部已有的積累數據，另一個就是互聯網數據，比如百度

用vue開發一個app（2，main.js）

.html 第一次用 courier ace 第一次 router -s 提示新建昨天跟著vue的官網搭建了vue的一個腳手架，我也是第一次用VUE一切都在摸索階段。今天試著看下裏面腳手架裏面有點什麽東西先看看main.js

ccs3新特性---（border，Background部分）

指定其他 round 分隔接收 source 縮小 20px 圓形 boder屬性新特性： border-radius 設置或檢索對象使用圓角邊框 border-top-left-radius 設置或檢索對象左上角圓角邊框 borde

Linux安裝yum的痛苦路程（失敗，慎入）

1-1 一個 h+ thread php read centos lin png 　　1，在網上下載了一個yum 的 rpm文件（yum-3.2.29-81.el6.centos.noarch.rpm），我在 http://www.rpmfind.net/linux/rpm

Spring MVC-控制器（Controller）-參數方法名稱解析器（Parameter Method Name Resolver ）示例（轉載實踐）

title rop port img lsp java類轉載 mvc export 以下內容翻譯自：https://www.tutorialspoint.com/springmvc/springmvc_parametermethodnameresolver.htm 說明

Spring MVC-視圖解析器（View Resolverr）-內部資源查看解析器（Internal Resource View Resolver）示例（轉載實踐）

ast mes 技術子文件夾 schema html cati href tree 以下內容翻譯自：https://www.tutorialspoint.com/springmvc/springmvc_internalresourceviewresolver.htm 說

更新整理本人所有博文中提供的代碼與工具（C++，2014.01）

jbd mlu osg mef sgd dac gpa irf rtc 說酉讕vuu2c短殉炕<a target="_blank" href="http://weibo.com/u/6212262647">http://weibo.com/u/621226264

解析庫的使用（XPath，BeautifulSoup, pyquery）

相關推薦