python爬蟲--re結合xpath爬取圖片

阿新 • • 發佈：2019-01-25

背景：虛擬機器ubuntu16.04利用xpath與爬取www.uumnt.cc/圖片

當然，我們要爬取的是動物板塊！

程式分析，將動物板塊一頁一頁分析拿取出來，然後拿去各種動物頁面的連結，然後對連結分析拿取圖片（每個連結拿取4張圖）

效果為：

原始碼如下：

  1 # -*- coding:utf-8 -*-
  2 
  3 #準備爬取https://www.uumnt.cc/dongwu/的一些圖片
  4 
  5 import urllib
  6 import urllib2
  7 import re
  8 import random
  9 from lxml import etree
 10 
 11 
 12 def loadPage(url):
 13     #拿到每一頁的html原始碼
 14     headers = {"User-Agent":"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45.0"}
 15     request = urllib2.Request(url,headers=headers)
 16     html = urllib2.urlopen(request).read()
 17 #print html 檢測用
 18 
 19     content = etree.HTML(html)
 20     #返回所有匹配成功的列表集合
 21     link_list = content.xpath('//div[@class="best-pic-c clearfix"]/ul/li/a[@class="best-pic-c-pic"]/@href')
 22 
 23     #print link_list 檢測用
 24     for link in link_list:
 25         fulllink = 'https://www.uumnt.cc'+link
 26         #拿取了相對應的動物的網頁
 27         #print fulllink 檢測用
 28         loadsunPage(fulllink)
 29 
 30 #拿取子網頁的資訊
 31 def loadsunPage(url):
 32 #       writeImage(url)#提取第一個子網頁
 33         url_ = re.match(r"(https://www.uumnt.cc/dongwu/)+(\d*)",url)
 34         url_sre =url_.group()
 35         #print url_sre 檢測用
 36         for i in range(2,6):
 37             a = "_%d.html"%i
 38             url = url_sre + a
 39             #print url
 40             writeImage(url)
 41 
 42 def writeImage(url):
 43 #拿到html原始碼,xpath提取出圖片連結
 44     headers = {"User-Agent":"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45.0"}
 45     request = urllib2.Request(url,headers=headers)
 46     html = urllib2.urlopen(request).read()
 47 
 48     content = etree.HTML(html)
 49     #返回所有匹配成功的列表集合
 50     link_list = content.xpath('//img[@class="center other_cont_pics"]/@src')
 51     #print link_list
 52     for link in link_list:
 53         #print link
 54         loadImage(link)
 55 
 56 #下載圖片
 57 def loadImage(link):
 58     #下載
 59     headers = {"User-Agent":"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45.0"}
 60     request = urllib2.Request(link,headers = headers)
 61     image = urllib2.urlopen(request).read()
 62 
 63     a = random.randint(1,100000000)
 64     filename = str(a)
 65 
 66     with open('/home/cl/桌面/uumntanimal'+filename+'.jpg',"wb") as f:
 67         f.write(image)
 68     print "download successful-" +filename+".jpg"
 69 
 70 
 71 
 72 if __name__ == "__main__":
 73     url = "https://www.uumnt.cc/dongwu/"
 74     #為了方便，從第二頁開始爬取
 75     print '請輸入需爬取的頁數:',
 76     a = input()
 77     for i in range(2,a+1):
 78         #print url      
 79         url = 'https://www.uumnt.cc/dongwu/list_%d.html'%i
 80         loadPage(url)
 81

程式碼中有很多print link之類的是為了除錯檢測程式，對新手來說很好用！

python爬蟲--re結合xpath爬取圖片

背景：虛擬機器ubuntu16.04利用xpath與爬取www.uumnt.cc/圖片當然，我們要爬取的是動物板塊！程式分析，將動物板塊一頁一頁分析拿取出來，然後拿去各種動物頁面的連結，然後對連結分析拿取圖片（每個連結拿取4張圖）效果為：原始碼如下： 1 # -*- cod

python爬蟲--利用xpath爬取圖片（虛擬機器ubuntu16.04）

此篇爬蟲的背景是：虛擬機器剛裝好的ubuntu 16.04，系統環境還需配置，爬蟲的程式是之前幾個月前在windows上寫的，今天放到虛擬機器上跑一跑！（安裝了VMware Tools就可以把宿主機上的檔案拉進虛擬機器中！） xpath爬取用到了urllib2與lxml庫，

python之爬蟲的入門02------爬取圖片、異常處理

一、爬取一張圖片 import urllib.request req = 'http://placekitten.com/400/400' # url地址 response = urllib.request.urlopen(req) #用檔案形式來開啟url地址對應的HTML頁

Python 爬蟲多執行緒爬取美女圖片儲存到本地

Wanning 我們不是生產者,我們只是搬運工資源來至於，程式碼基於Python 3.5.2 友情提醒：血氣方剛的騷年。請謹慎閱圖！！！謹慎閱圖！！！謹慎閱圖！

Python爬蟲(第一季)之爬取淘寶圖片

一、分析規律第一頁時第二頁時s=48,第三頁時s=96（每頁為48的倍數）當q=外套時（q為關鍵字）用於每頁圖片的正則表達目標二、走起…… 匯入

Python爬蟲設定代理IP爬取知乎圖片

本文接著前面兩文中提到的內容來繼續完善我們的Python爬蟲。上文地址：通過Python爬蟲爬取知乎某個問題下的圖片設定代理的方式很簡單，可以看看這裡Requests的官方文件，這裡也有對應的中文版介紹，點選開啟連結先簡單說下requests代理的使用，摘自上述提到的文

python爬蟲【例項】爬取豆瓣電影評分連結並圖示（）-問題如何爬取電影圖片（解決有程式碼）

這裡只有尾巴，來分析一下確定範圍：如何爬取圖片並下載？參考：http://blog.csdn.net/chaoren666/article/details/53488083----------------------------------------------------

Python爬蟲實戰(三):簡單爬取網頁圖片

先上程式碼:#coding=utf-8 import urllib.request for i in range(1,41): imgurl = "http://mtl.ttsqgs.com/images/img/11552/" imgurl += str(i

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

Python爬蟲系列 - 初探：爬取旅遊評論

blank .text http fir win64 ati coo get stat Python爬蟲目前是基於requests包，下面是該包的文檔，查一些資料還是比較方便。 http://docs.python-requests.org/en/master/ 爬取某旅遊

Python 爬蟲簡單實現（爬取下載連結）

原文地址：https://www.jianshu.com/p/8fb5bc33c78e 專案地址：https://github.com/Kulbear/All-IT-eBooks-Spider 這幾日和朋友搜尋東西的

Python 爬蟲技巧1 | 將爬取網頁中的相對路徑轉換為絕對路徑

1.背景：在爬取網頁中的過程中，我對目前爬蟲專案後端指令碼中拼接得到絕對路徑的方法很不滿意，今天很無意瞭解到在python3 的 urllib.parse模組對這個問題有著非常完善的解決策略，真的是上天有眼，感動！ 2.urllib.parse模組 This module define

python爬蟲——40行程式碼爬取「筆趣看」全部小說你都看了嗎？

需求分析 ”筆趣看“ 是一個盜版小說網站，這裡有各大知名小說網站的小說，更新速度略慢於正版網站。但是該網站只支援線上瀏覽，不支援小說下載，對於想要下載下來以防斷網或者網速不好時也能看的童鞋來說不太友好。因此，本次練習將爬取該網站所有小說。PS：本次練習僅為學習交流，請各位童鞋支援正版。爬取

Python爬蟲系列 - 初探：爬取新聞推送

http nec apple 下標 for pri Language span round Get發送內容格式 Get方式主要需要發送headers、url、cookies、params等部分的內容。 t = requests.get(url, headers = hea

Python爬蟲實例：爬取B站《工作細胞》短評——異步加載信息的爬取

localtime pre global web for short sco 網頁解析 save 《工作細胞》最近比較火，bilibili 上目前的短評已經有17000多條。先看分析下頁面右邊 li 標簽中的就是短評信息，一共20條。一般我們加載大量數據的時候，都

一個月入門Python爬蟲學習，輕鬆爬取大規模資料

利用爬蟲我們可以獲取大量的價值資料，從而獲得感性認識中不能得到的資訊，這篇文章給大家帶來了一個月入門Python學習,爬蟲輕鬆爬取大規模資料，感興趣的朋友一起看看吧資料獲取方式：Python技術學習QQ群832339352 新增即可免費獲取！ Python爬蟲為

Python爬蟲框架：Scrapy 爬取伯樂線上實戰

專案介紹使用Scrapy框架進行爬取伯樂線上的所有技術文章所用知識點 Scrapy專案的建立 Scrapy框架Shell命令的使用 Scrapy自帶的圖片下載管道 Scrapy自定義圖片下載管道(繼承自帶的管道) Scrapy框架ItemLoader

python 爬蟲使用正則爬取51job內容並存入txt

python爬蟲基礎–使用正則提取51job內容輸出到txt from urllib import request #url url = 'https://search.51job.com/list/020000%252C010000%252C080200%25

汽車之家網站為例-爬蟲的編寫，爬取圖片

汽車之家圖片的爬取汽車之家有很多汽車的點評、價格、圖片等資訊，那麼怎麼才能編寫一個爬蟲來獲得我們所需要的資訊呢，很簡單，兩個工具便可以了，一個網頁解析工具requests，一個正則匹配工具re

python爬蟲【一】爬取文字

我們在安裝py是建議如果使用windows不要安裝原生的py因為windows的c編譯器原因會使某些套件安裝起來有麻煩也就是安裝anaconda版本的pyhttps://www.anaconda.com/download/#windows py官網下載的是原生版本https://www

python爬蟲--re結合xpath爬取圖片

相關推薦