python爬蟲之pyquery學習

阿新 • • 發佈：2018-03-09

功能刪除指定元素 pre spa image demo round imp 情況

pyquery的介紹

pyquery允許對xml、html文檔進行jQuery查詢。
pyquery使用lxml進行快速xml和html操作。
pyquery是python中的jquery

PyQuery的使用：

1.安裝模塊：

pip3 install pyquery

2.導入模塊:

from pyquery import PyQuery as pq

3.解析對象初始化：

【使用PyQuery初始化解析對象,PyQuery是一個類，直接將要解析的對象作為參數傳入即可】

解析對象為字符串時字符串初始化：默認情況下是字符串，如果字符串是一個帶http\https前綴的，將會認為是一個url
```
textParse = pq(html)
```

解析對象為網頁時url初始化: 建議使用關鍵字參數url=

# urlParse = pq(‘http://www.baidu.com‘) #1
urlParse = pq(url=‘http://www.baidu.com‘) # 
2

解析對象為文件時文件初始化：建議使用關鍵字參數filename=
```
fileParse = pq(filename="L:\demo.html")
```
解析完畢後，就可以使用相關函數或變量來進行篩選，可以使用css等來篩選，

4.CSS選擇器：

利用標簽獲取：
```
result = textParse(‘h2‘).text()
```
利用類選擇器：
```
result3=textParse(".p1").text()
```
利用id選擇：
```
result4=textParse("#user").attr("type")
```
分組選擇：
```
result5=textParse("p,div").text()
```
後代選擇器：
```
result6=textParse(" 
div a").attr.href
```

屬性選擇器：

result7=textParse("[class=‘p1‘]").text()

CSS3偽類選擇器：
```
result8=textParse("p:last").text()
```

（更多的，可以參考css）

5.在選定元素之後的元素再選取:

find():找出指定子元素 ,find可以有參數，該參數可以是任何 jQuery 選擇器的語法，
filter():對結果進行過濾，找出指定元素 ,filter可以有參數，該參數可以是任何 jQuery 選擇器的語法，
children():獲取所有子元素，可以有參數，該參數可以是任何 jQuery 選擇器的語法，
parent():獲取父元素，可以有參數，該參數可以是任何 jQuery 選擇器的語法，
parents():獲取祖先元素，可以有參數，該參數可以是任何 jQuery 選擇器的語法，
siblings():獲取兄弟元素，可以有參數，該參數可以是任何 jQuery 選擇器的語法，

from pyquery import PyQuery as pq

html="""
<html>
<head>
</head>
<body>
<h2>This is a heading</h2>
<p class="p1">This is a paragraph.</p>
<p class="p2">This is another paragraph.</p>
<div> 
123
<a id="a1" href="http://www.baidu.com">hello</a>
</div>
<input type="Button" >
<input id="user" type="text" >
</body>
"""

###初始化
textParse = pq(html)
# urlParse = pq(‘http://www.baidu.com‘) #1
# urlParse = pq(url=‘http://www.baidu.com‘) #2
# fileParse = pq(filename="L:\demo.html")

##獲取
result = textParse(‘h2‘).text()
print(result)
result2= textParse(‘div‘).html()
print(result2)
result3=textParse(".p1").text()
print(result3)
result4=textParse("#user").attr("type")
print(result4)
result5=textParse("p,div").text()
print(result5)
result6=textParse("div a").attr.href
print(result6)
result7=textParse("[class=‘p1‘]").text()
print(result7)
result8=textParse("p:last").text()
print(result8)
result9=textParse("div").find("a").text()
print(result9)
result12=textParse("p").filter(".p1").text()
print(result12)
result10=textParse("div").children()
print(result10)
result11=textParse("a").parent()
print(result11)

6.元素的文本、屬性等內容的獲取：

attr(attribute):獲取屬性

result2=textParse("a").attr("href")

attr.xxxx:獲取屬性xxxx

result21=textParse("a").attr.href
result22=textParse("a").attr.class_
result23=textParse("a").attr.id_
result24=textParse("a").attr.value

text():獲取文本，子元素中也僅僅返回文本

result1=textParse("a").text()

html():獲取html,功能與text類似,但返回html標簽技術分享圖片

result3=textParse("div").html()

補充1：

元素的叠代：如果返回的結果是多個元素，如果想叠代出每個元素，可以使用items():

技術分享圖片

補充2：pyquery是jquery的python化，語法基本都是相通的，想了解更多，可以參考jquery。

pyquery執行DOM操作、css操作：

DOM操作：

add_class():增加class

remove_class():移除class

remove():刪除指定元素

from pyquery import PyQuery as pq

html="""
<html>
<head>
</head>
<body>
<h2>This is a heading</h2>
<p id="p1" class="p1">This is a paragraph.</p>
<p class="p2">This is another paragraph.</p>
<div style="color:blue"> 
123
<a class="ca" href="http://www.baidu.com">hello</a>
</div>
<input type="Button" >
<input id="user" type="text" >
</body>
"""

textParse=pq(html)
textParse(‘a‘).add_class("c1")
print(textParse(‘a‘).attr("class"))

textParse(‘a‘).remove_class("c1")
print(textParse(‘a‘).attr("class"))

print(textParse(‘div‘).html())
textParse(‘div‘).remove("a")
print(textParse(‘div‘).html())

css操作：

attr()：設置屬性

設置格式：attr("屬性名","屬性值")

css()：設置css

設置格式1:css("css樣式","樣式值")
格式2：css({"樣式1":"樣式值","樣式2":"樣式值"})

from pyquery import PyQuery as pq

html="""
<html>
<head>
</head>
<body>
<h2>This is a heading</h2>
<p id="p1" class="p1">This is a paragraph.</p>
<p class="p2">This is another paragraph.</p>
<div style="color:blue"> 
123
<a class="ca" href="http://www.baidu.com">hello</a>
</div>
<input type="Button" >
<input id="user" type="text" >
</body>
"""

textParse=pq(html)
textParse(‘a‘).attr("name","hehe")
print(textParse(‘a‘).attr("name"))

textParse(‘a‘).css("color","white")
textParse(‘a‘).css({"background-color":"black","postion":"fixed"})
print(textParse(‘a‘).attr("style"))

這些操作什麽時候會被用到：

【有時候可能會將數據樣式處理一下再存儲下來，就需要用到,比如我獲取下來的數據樣式我不滿意，可以自定義成我自己的格式】

【有時候需要逐層清理再篩選出指定結果，比如<div>123<a></a></div>中，如果僅僅想要獲取123就可以先刪除<a>再獲取】

一個利用pyquery爬取豆瓣新書的例子:

先使用審查元素,定位目標元素技術分享圖片

確認爬取信息技術分享圖片

要註意的是，豆瓣新書是有一些分在後面頁的，實際上目標應該是li的上一級ul：技術分享圖片

使用PyQuery篩選出結果：

from pyquery import PyQuery as pq

urlParse=pq(url="https://book.douban.com/")

info=urlParse("div.carousel ul li div.info")

file=open("demo.txt","w",encoding="utf8")
for i in info.items():
    title=i.find("div.title")
    author=i.find("span.author")
    abstract=i.find(".abstract")
    file.write("標題:"+title.text()+"\n")
    file.write("作者:"+author.text()+"\n")
    file.write("概要:"+abstract.text()+"\n")
    file.write("-----------------\n")
    print("\n")
file.close()

python爬蟲之pyquery學習

功能刪除指定元素 pre spa image demo round imp 情況相關內容： pyquery的介紹 pyquery的使用安裝模塊導入模塊解析對象初始化 css選擇器在選定元素之後的元素再選取元素的文本、屬性等內容的獲取 pyquery執

python爬蟲之BeautifulSoup學習

1. Beautiful Soup的簡介簡單來說，Beautiful Soup是python的一個庫，最主要的功能是從網頁抓取資料。官方解釋如下： Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。它是一個工具箱，通過解析文件為使

Python爬蟲之PyQuery使用

html=''' <html> <body> <ul class="mh-col"> <li class="g-ellipsis1"> <a class="g-a-noline1" data-md='{"b":"list","p":"

[Python爬蟲] 之十九：Selenium +phantomjs 利用 pyquery抓取超級TV網數據

images 判斷 nco dex onf etc lac lin 利用　　一、介紹　　　　本例子用Selenium +phantomjs爬取超級TV（http://www.chaojitv.com/news/index.html）的資訊信息，輸入給定關鍵字抓取

python爬蟲之解析網頁的工具pyquery

div blog import 很多 aof pyquery from text lec 主要是對http://www.cnblogs.com/zhaof/p/6935473.html這篇博客所做的筆記有疑惑可以去看這篇文章from pyquery import PyQue

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

轉： https://blog.csdn.net/qq_32166627/article/details/60882964 前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片

python爬蟲之lxml簡單學習使用方法

使用BeautifulSoup和lxml，可以解析程式碼並不規範的網頁，並補充程式碼方便解析。使用過BeatuifulSoup解析網頁，解析速度上並沒有lxml快，本人爬取過一個網站，用aiohttp+BeautifulSoup，協程一起爬20多個網頁，由於解析超時會中斷，改

python學習（7）：python爬蟲之爬取動態載入的圖片，以百度圖片為例

前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片到本地。當我們在看百度圖片時，右鍵–檢查–Elements，點選箭頭，再用箭頭點選圖片時

python學習（6）：python爬蟲之requests和BeautifulSoup的使用

前言： Requests庫跟urllib庫的作用相似，都是根據http協議操作各種訊息和頁面。都說Requests庫比urllib庫好用，我也沒有體會到好在哪兒。但是，urllib庫有一點不爽的

python框架之 Tornado 學習筆記（一）

tornado pythontornado 一個簡單的服務器的例子：首先，我們需要安裝 tornado ，安裝比較簡單： pip install tornado 測試安裝是否成功，可以打開python 終端，輸入： import tornado.https

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

[Python爬蟲] 之十五：Selenium +phantomjs根據微信公眾號抓取微信文章

頭部 drive lac 過程標題操作函數軟件測試 init 　　借助搜索微信搜索引擎進行抓取　　抓取過程　　1、首先在搜狗的微信搜索頁面測試一下，這樣能夠讓我們的思路更加清晰　　　　　　在搜索引擎上使用微信公眾號英文名進行“搜公眾號&r

玩轉python爬蟲之URLError異常處理

bsp 無法識別 pac 使用 cin lai 網絡處理方式地址這篇文章主要介紹了python爬蟲的URLError異常處理，詳細探尋一下URL\HTTP異常處理的相關內容，通過一些具體的實例來分析一下，非常的簡單，但是卻很實用，感興趣的小夥伴們可以參考一下本節

python爬蟲之正則表達式

ner cde 輸入 set 神奇 tro 轉義規則 error 一、簡介　　正則表達式，又稱正規表示式、正規表示法、正規表達式、規則表達式、常規表示法（英語：Regular Expression，在代碼中常簡寫為regex、regexp或RE），計算機科學的一個概念。

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

python爬蟲之git的使用

mage .cn 沒有倉庫本地倉庫 odin src python爬蟲建立 1、初始化文件夾為版本控制文件夾，首先建立一個文件夾，進入這個文件夾以後輸入git init初始化這個文件夾。 2、Git幾種位置概念 1、本地代碼：本地更改完代碼以後，雖然是存放在git的

python爬蟲之git的使用（coding.net的使用）

git push github上版本 es2017 push 我們執行命令 pytho 最好的 1、註冊coding.net賬號，然後登陸。 2、創建項目套路和github都一樣。 1.1、我們在遠程倉庫上創建了一個倉庫，這樣的話，我們需要在本地隨便建立一

python爬蟲之requests模塊

.post 過大 form表單提交 www xxxxxx psd method date .com 一. 登錄事例 a. 查找汽車之家新聞標題鏈接圖片寫入本地 import requests from bs4 import BeautifulSoup import

Python爬蟲之利用正則表達式爬取內涵吧

file res start cnblogs all save nts quest ide 首先，我們來看一下，爬蟲前基本的知識點概括一. match()方法：這個方法會從字符串的開頭去匹配（也可以指定開始的位置），如果在開始沒有找到，立即返回None，匹配到一個結果

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

python爬蟲之pyquery學習

相關內容：

pyquery的介紹

PyQuery的使用：

1.安裝模塊：

2.導入模塊:

3.解析對象初始化：

4.CSS選擇器：

5.在選定元素之後的元素再選取:

6.元素的文本、屬性等內容的獲取：

pyquery執行DOM操作、css操作：

DOM操作：

css操作：

一個利用pyquery爬取豆瓣新書的例子:

相關推薦