python3 爬蟲神器pyquery的使用實例

阿新 • • 發佈：2018-02-15

open content spa dirname index rom tar requests ()

PyQuery 可讓你用 jQuery 的語法來對 xml 進行操作，這和 jQuery 十分類似。如果利用 lxml，pyquery 對 xml 和 html 的處理將更快。

如果對 jQuery 熟悉，那麽 PyQuery來解析文檔就是不二之選！

下面的例子是爬取 ‘http://so.fengniao.com/index.php?action=Image&keyword=%E7%BE%8E%E6%99%AF‘ 這個頁面的圖片然後保存到本地

 1 from pyquery import PyQuery as pq
 2 import os,requests
 3 targetDir = os.path.join(os.path.dirname(os.path.abspath(__file__ 
)),‘imgs1‘)#圖片保存的路徑
 4 if not os.path.isdir(targetDir):#不存在創建路徑
 5     os.mkdir(targetDir)
 6 doc = pq(‘http://so.fengniao.com/index.php?action=Image&keyword=%E7%BE%8E%E6%99%AF‘)
 7 imgs = doc(‘img‘)#取到所有圖片
 8 list_imgs = []
 9 for img in imgs.items():
10     list_imgs.append(img.attr(‘src‘))#將所有圖片鏈接放到列表 

11 num = 0
12 for url in list_imgs:
13     r = requests.get(url)
14     image_name = os.path.join(targetDir, str(num) + ‘.jpg‘)#指定目錄，圖片名‘xx.jpg‘
15     fw = open(image_name,‘wb‘)
16     fw.write(r.content)
17     num +=1
18     fw.close()

python3 爬蟲神器pyquery的使用實例

open content spa dirname index rom tar requests () PyQuery 可讓你用 jQuery 的語法來對 xml 進行操作，這和 jQuery 十分類似。如果利用 lxml，pyquery 對 xml 和 html 的處理將更

Python爬蟲框架Scrapy實例（二）

head sports spi 工作目錄 http 鏈接進入效果 tex 目標任務：使用Scrapy框架爬取新浪網導航頁所有大類、小類、小類裏的子鏈接、以及子鏈接頁面的新聞內容，最後保存到本地。大類小類如下圖所示：點擊國內這個小類，進入頁面後效果如下圖（部分截圖）

linux動態追蹤神器——Strace實例介紹【轉】

fork signal lin 通過調用次數命令 roc nal 說了 Strace是Linux下一款通用的進程動態跟蹤工具，用來追蹤程序執行時的系統調用和所接收的信號。其應用方法如下圖（部分）。首先，簡單說說它的使用參數，Strace的參數包括輸出參數

python3 爬蟲之Pyquery的使用方法

ger -s pos amp int lxml pyquery add ddc 安裝 pip install pyquery 官方文檔： https://pythonhosted.org/pyquery/ 初始化方式（四種） 1. 直接字符串 from pyquer

python爬蟲神器PyQuery的使用方法

前言前端大大們的福音來了，PyQuery 來了，乍聽名字，你一定聯想到了 jQuery，如果你對 jQuery 熟悉，那麼 PyQuery 來解析文件就是不二之選！包括我在內！ PyQuery 是&nb

Python3基礎-函數實例學習

函數 github ins 絕對值 amp 數學庫 abs raise person 內置函數絕對值函數 x = abs(100) y = abs(-20) print('x=100的絕對值為：{}'.format(x)) print('y=-20

python3爬蟲基礎-pyquery解析庫

簡介看名稱和jQuery比較接近，對沒錯,pyQuery允許您對XML文件進行jQuery查詢。API儘可能類似於jQuery。

scrapy爬蟲框架實例之一

獲取名稱返回工程 ima 1-57 response lines star 　　本實例主要通過抓取慕課網的課程信息來展示scrapy框架抓取數據的過程。　1、抓取網站情況介紹　　抓取網站：http://www.imooc.com/course/list 　

爬蟲實例1-爬取新聞列表和發布時間

爬蟲 python 工程 import title 一、新建工程scrapy startproject shop 二、Items.py文件代碼：import scrapy class ShopItem(scrapy.Item): title = scrapy.Field()

爬蟲實例——爬取python百度百科相關一千個詞條

管理器 name 詞條 enc aik lib cnblogs response ons 調度器： import url_manager,html_downloader,html_parser,html_outputer class SpiderMain(object

[定向爬蟲] 網絡爬蟲實例2-淘寶定向爬蟲

break 解析 tao 運行 title out 繼續 pri 字符串分割 import requests import re import time #獲取html頁面 def getHTMLText(url): try:

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

Python爬蟲實例（二）使用selenium抓取鬥魚直播平臺數據

def 獲取平臺 es2017 抓取設置 log ips driver 程序說明：抓取鬥魚直播平臺的直播房間號及其觀眾人數，最後統計出某一時刻的總直播人數和總觀眾人數。過程分析：一、進入鬥魚首頁http://www.douyu.com/directory/all 進

Python爬蟲實例（三）代理的使用

pen .sh strong list blank 寫入禁止 bsp open() 一些網站會有相應的反爬蟲措施，例如很多網站會檢測某一段時間某個IP的訪問次數，如果訪問頻率太快以至於看起來不像正常訪客，它可能就會會禁止這個IP的訪問。所以我們需要設置一些代理服務器，每隔

Python爬蟲實例（四）網站模擬登陸

opener 運行 webkit zh-cn head window targe Coding 破解一、獲取一個有登錄信息的Cookie模擬登陸下面以人人網為例，首先使用自己的賬號和密碼在瀏覽器登錄，然後通過抓包拿到cookie，再將cookie放到請求之中發送請求即可

爬蟲實例：唐詩宋詞爬蟲

點滴 itl cnblogs @class .com 南方 xpath repl users 每年都期待夏天趕緊變成秋天，沒有木頭馬尾的九月，沒有顏色奇跡的南方，只得古詩詞裏把情緒商量，算雲煙，此處認春秋。以流浪丈量秋天的面積，秋天的外面還是秋天。以攀登探測秋天的深度，

python爬蟲實例

mobile 獲取數據 sea con orm obi tle lob time 這裏有兩個爬蟲的實例，是剛開始學python用的，一個是爬取京東茅臺酒評論的，另一個是爬取新浪網國內新聞的，兩個都是網上的教程裏邊的，代碼略微有些不同，供參考學習。都可以在andconda裏

爬蟲實例之selenium爬取淘寶美食

獲取 web tex 匹配 ive cati def presence dea 這次的實例是使用selenium爬取淘寶美食關鍵字下的商品信息，然後存儲到MongoDB。首先我們需要聲明一個browser用來操作，我的是chrome。這裏的wait是在後面的判斷元素是

Python 爬蟲實例（7）—— 爬取新浪軍事新聞

secure host agen cat hand .com cati ica sts 我們打開新浪新聞，看到頁面如下，首先去爬取一級 url，圖片中藍色圓圈部分第二zh張圖片，顯示需要分頁，

Python 爬蟲實例（10）—— 四行代碼實現刷博客園閱讀數量

體會博客 http log 實例代碼 port 代碼實現 ive 代碼很少，自己去體會 from selenium import webdrever driver = webdrever.Chrome() url = "http://www.cnblo

python3 爬蟲神器pyquery的使用實例

相關推薦