爬蟲入門【5】PyQuery簡介

阿新 • • 發佈：2017-11-19

其他 attr before lxml 移除位置方式 fin .org

PyQuery

目前最新的版本是1.3，基於最新版本進行介紹。
主要根據PyQuery的官方文檔進行了更新。

from pyquery import PyQuery as pq
from lxml import etree
import urllib

doc=pq(‘<p id="hello" class="hello"></p>‘)#解析文檔的基本方法
p=doc(‘p‘)#獲取p標簽

print(p.attr(‘id‘))#獲取p標簽的id屬性的值
p.attr(‘id‘,‘plop‘)#改變p標簽的id屬性的值為plop
print(p.attr(‘id‘))
p.attr.id 
=‘snow‘#使用python的方式改變id屬性
print(p.attr.id)
p.attr[‘id‘]=‘ola‘
print(p.attr[‘id‘])
p.attr(id=‘hello‘,class_=‘hello2‘)
print(p)

hello
plop
snow
ola
<p id="hello" class="hello2"/>

CSS內容

p.add_class(‘toto‘)#增加class內容
# print(p)
p.toggle_class(‘titi toto‘)#切換class內容
# print(p)
p.remove_class(‘titi‘)#移除class 

# print(p)
#添加style，以font-size為例
p.css.font_size=‘16px‘
p.css[‘font-size‘]=‘16px‘
p.css={‘font-size‘:‘17px‘}

Manipulating

#向標簽內容的尾部添加一些string
p.append(‘ check out <a href="http://www.baidu.com">百度一下</a>‘)
#pp()
#也可以向標簽的頭部添加
p.prepend(‘hello again! ‘)
#pp()
#或者使用這兩個命令添加到其他文檔或者標簽的內容中
d=pq(‘<html><body><div id="test"><a href="http://python.org">python</a> !</div></body></html>‘ 
)
p.prepend_to(d(‘#test‘))#將p的內容添加到d的id為test的標簽裏面，占據最開始的位置
#print(d(‘#test‘).html())#打印出id為test的標簽的內容

p.insert_after(d(‘#test‘))#把p標簽放在id為test的標簽後面
#print(d(‘body‘).html())
p.insert_before(d(‘#test‘))#把p標簽插入到id為test的標簽前面
#print(d(‘body‘).html())#可以看出來，p插入到了id為test的標簽的前面

#移除一個元素
d=pq(‘<html><body><p id="id">Yeah!</p><p>python rocks !</p></div></html>‘)
d.remove(‘p#id‘)#移除了p標簽的id屬性
#print(d(‘body‘).html())

#將標簽的內容移除
d(‘p‘).empty()
#print(d(‘p‘))

#可以將兩個PyQuery對象連接起來：
print(pq(‘<div>Yeah !</div>‘).add_class(‘myclass‘) + pq(‘<b>cool</b>‘))

Traversing

d = pq(‘<p id="hello1" class="test1"><a>1</a></p><p id="hello2" class="test2"><a>2</a></p>‘)

#print(d(‘p‘).filter(‘.test1‘))#按類選擇，class名為test1的p標簽。
#print(d(‘p‘).filter(‘#hello2‘))#按id選擇，id名為hello2的p標簽
#print(d(‘p‘).eq(0))#第一個p標簽
#print(d(‘p‘).eq(1))#第二個p標簽

"""Return PyQuery of only the element with the provided index:
    >>> d = PyQuery(‘<p class="hello">Hi</p><p>Bye</p><div></div>‘)
    >>> d(‘p‘).eq(0)
    [<p.hello>]
    >>> d(‘p‘).eq(1)
    [<p>]
    >>> d(‘p‘).eq(2)
    []
"""

#查詢嵌套的元素
#print(d(‘p‘).find(‘a‘))
#print(d(‘p‘).eq(1).find(‘a‘))

API

http://pythonhosted.org/pyquery/api.html
請參考官方文檔的介紹。

Scraping

#PyQuery可以使用url載入html文檔，默認使用python的urllib庫
print(pq(‘http://www.baidu.com‘))
#如果安裝了request庫，也可以使用並且可以使用requests的大多參數
pq(‘http://duckduckgo.com/‘, headers={‘user-agent‘: ‘pyquery‘})
pq(‘https://duckduckgo.com/‘, {‘q‘: ‘foo‘}, method=‘post‘, verify=True)

如果您覺得感興趣的話，可以添加我的微信公眾號：一步一步學Python
技術分享圖片

爬蟲入門【5】PyQuery簡介

其他 attr before lxml 移除位置方式 fin .org PyQuery 目前最新的版本是1.3，基於最新版本進行介紹。主要根據PyQuery的官方文檔進行了更新。 from pyquery import PyQuery as pq from lxml

Python爬蟲入門【1】： CentOS環境安裝

簡介你好，當你開啟這個文件的時候，我知道，你想要的是什麼！ Python爬蟲，如何快速的學會Python爬蟲，是你最期待的事情，

Python爬蟲入門【8】：蜂鳥網圖片爬取之三

蜂鳥網圖片--囉嗦兩句前面的教程內容量都比較大，今天寫一個相對簡單的，爬取的還是蜂鳥，依舊採用aiohttp 希望你喜歡爬取頁

【helloworld】-微信小程序開發教程-入門篇【5】

總結 mta top eight page ota 技術分享小程序 attach 1. 開篇導言本節目標：通過之前的講解，相信大家對於微信小程序本身有了一定的認識。本篇將專註於講解IDE的調試功能。目標用戶：無編程經驗，但對微信小程序感興趣的同學。學習目標

dubbox系列【一】——dubbox簡介

現在配置 spring 沒有優秀基於 col ring soa 1.dubbox是什麽？ dubbox是當當網開源的開源分布式服務框架，基於阿裏巴巴dubbo。 1個框架 + 2個方案：分布式服務框架 + RPC遠程調用方案 + SOA服務治理方案。 2.dub

【5】JVM-垃圾收集器

garbage 垃圾收集器發展 access 表示新生代動態導致 ren 通過學習了解到現在商用的JVM中的垃圾收集采用的是分代收集算法，即針對不同年代采用不同的收集算法。在JVM中，GC主要作用於堆內存中，堆內存又被劃分為新生代和老年代，由於新生代對象絕大多數是朝

Android自己定義組件系列【5】——進階實踐（2）

col fonts tle 適配 pack tom ica void log 上一篇《Android自己定義組件系列【5】——進階實踐（1）》中對任老師的《可下拉的PinnedHeaderExpandableListView的實現》前一部分進行了實現，這一篇我們來看看Ex

【5】基本字符串壓縮

stringbu 字符串 n) nbsp ret map ++ clas ipp 【題目】利用字符重復出現的次數，編寫一個方法，實現基本的字符串壓縮功能。比如，字符串“aabcccccaaa”經壓縮會變成“a2b1c5a3”。若壓縮後的字符串沒有變短，則返回原先的字符串

感悟【5】

基本上項目組人在機會朋友圈都是那不 nbsp 說了開微博呢，一方面是記錄自己的學習歷程，另一方面呢是可以說自己想說的話，自己的感受，這些話很想發在朋友圈，但是怕給別人帶去負面影響所以在朋友圈一般都不會發一些傷感的話，一個人在這個行業沒有人帶，都靠自己學習，

【5】標題上的小logo

-- span pan shortcut color font nbsp 圖片 logo <link rel="shortcut icon" href="logo圖片的路徑"> shortcut --- 捷徑，近路 icon --- 圖標【5】標題上的小lo

線性代數-矩陣-【5】矩陣化簡 C和C++實現

tar tput c++ spec 但是 exc c++語言 emp opened 點擊這裏可以跳轉至【1】矩陣匯總：http://www.cnblogs.com/HongYi-Liang/p/7287369.html 【2】矩陣生成：http://www.cnblog

【5】GDI+ 生成驗證碼

splay 小應用 eric gen 前景 num 微軟 param graphic 這裏我們做一個小應用，就是繪制一個如下圖所示的驗證碼圖片。並且點擊驗證碼的時候會自動切換。實現思路如下：通過Random生成隨機數或字符及驗證碼通過驗證碼內容長度生成指定大小的圖

Fiddler抓包【5】_Fiddler過濾

cts type request 抓包 .cn font show all ces nds 1、User Fiters啟用 2、Action Action：Run Filterset now是否運行，Load Filterset加載，Save Filterset保存；

爬蟲實戰【6】Ajax內容解析-今日頭條圖集

就是 get請求加載執行搜索 parse 編程滾動 from Ajax技術 AJAX = Asynchronous JavaScript and XML（異步的 JavaScript 和 XML）。 Ajax並不是新的編程語言，而是一種使用現有標準的新方法，當然也不

爬蟲實戰【10】利用Selenium自動登陸京東簽到領金幣

oca fire ins close child cond exce markdown common 今天我們來講一下如何通過python來實現自動登陸京東，以及簽到領取金幣。如何自動登陸京東？我們先來看一下京東的登陸頁面，如下圖所示：【插入圖片，登陸頁面】登陸框

【MySQL】語法簡介

MySQL本篇文章主要簡介下MySQL中where,group by ,order by ,limit,join,union ,union all,子表等查詢語法。測試數據準備 create table emp ( empno numeric(4) not null, ename varch

unigui導出TMS.Flexcel【5】

eve sig exceptio dst time 創建 hid pro session procedure TUniFrmeWebEmbedBase.ExportData; //導出到excel var FlexCelImport1: TExce

LeetCode：最長回文子串【5】

msu 產生嘗試 ++ 不必要 code 分享規劃 color LeetCode：最長回文子串【5】題目描述給定一個字符串 s，找到 s 中最長的回文子串。你可以假設 s 的最大長度為1000。示例 1：輸入: "babad" 輸出: "bab" 註意: "ab

linux基礎學習【5】

http ive conf 解壓 gunzip ble src enable id_rsa sshd服務，服務管理及文件傳輸一.控制服務 1.什麽是服務 2.用什麽控制服務系統初始化進程可以進行相應的控制 3.當前系統初始化進程是什麽 systemd 系統

lvs fullnat+ECMP【0】原理簡介

廣播 ext 51cto 需要使用 col nat 單點進行 lvs-fullnat模式的優勢 FULLNAT模式下，LB會對請求包和響應包都做SNAT+DNAT。無論是DR還是NAT模式，不可避免的都有一個問題：LVS和RS必須在同一個VLAN下，否則LVS無法

爬蟲入門【5】PyQuery簡介

PyQuery

CSS內容

Manipulating

Traversing

API

Scraping

相關推薦