1. 程式人生 > >一個簡單的網路爬蟲---爬取網頁中的圖片

一個簡單的網路爬蟲---爬取網頁中的圖片

這裡貼上py原始碼,這個爬蟲很簡單,爬取網頁的圖片,通過正則表示式匹配對應的圖片的url 然後下載之,基本上也沒有什麼容錯處理,僅供學習之用

# -*- coding: utf-8 -*-  

   
import urllib2  
import urllib  
import re  
import time
#通過 url 獲取網頁原始碼 html
def getHtml(url):
    page = urllib2.urlopen(url)
    html = page.read()
    return html
#在html中找到匹配的 url    
def getImg(html):
    #修改這裡的匹配模式,適用於不同的網頁
    reg = r'src="(http://.+?\.jpg)" '  # +號後面加上? --->非貪婪模式
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    i = 0
    for imgurl in imglist:
        print imgurl
        urllib.urlretrieve(imgurl,'%s.jpg'%time.time() )#下載imgurl的圖片並且用當前時間戳命名
        i+=1
    #return imglist
    
url = "http://tieba.baidu.com/p/2772656630"
html = getHtml(url)    
print getImg(html)