一個簡單的網路爬蟲---爬取網頁中的圖片
阿新 • • 發佈:2019-01-01
這裡貼上py原始碼,這個爬蟲很簡單,爬取網頁的圖片,通過正則表示式匹配對應的圖片的url 然後下載之,基本上也沒有什麼容錯處理,僅供學習之用
# -*- coding: utf-8 -*-
import urllib2
import urllib
import re
import time
#通過 url 獲取網頁原始碼 html
def getHtml(url):
page = urllib2.urlopen(url)
html = page.read()
return html
#在html中找到匹配的 url
def getImg(html):
#修改這裡的匹配模式,適用於不同的網頁
reg = r'src="(http://.+?\.jpg)" ' # +號後面加上? --->非貪婪模式
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
i = 0
for imgurl in imglist:
print imgurl
urllib.urlretrieve(imgurl,'%s.jpg'%time.time() )#下載imgurl的圖片並且用當前時間戳命名
i+=1
#return imglist
url = "http://tieba.baidu.com/p/2772656630"
html = getHtml(url)
print getImg(html)