1. 程式人生 > >Python抓一個網頁上的所有圖片

Python抓一個網頁上的所有圖片

這個是爬蟲的入門,因此沒有用到深度優先和廣度優先演算法,只是簡單的抓取一個頁面上的所有圖片

思路:

1.首要步驟就是要知道這個網頁的網址和這個網頁的html程式碼,你可以在firefox、chrome中使用開發者工具或者滑鼠右鍵選擇審查元素檢視程式碼

2.檢視你要找的圖片的格式,使用正則表示式表達出來,然後開始寫程式碼

其中的dir你可以根據你的需要來自己設定

# -*- coding: utf-8 -*-
# @Author: 
# @Date:   
# @Last Modified by:  
# @Last Modified time: 

# coding=utf-8
import urllib.request,re
response = urllib.request.urlopen('http://www.imooc.com/course/list')
html = response.read().decode('utf-8')
print(html)
listurl = re.findall(r'src=.+\.jpg', html)
listurls = []
for each in listurl:
	listurls.append('http:' + each[5:])
print(listurls)

i = 0
for url in listurls:
	response = urllib.request.urlopen(url)
	image = response.read()
	dir = 'D:\\程式設計程式碼集合\\Python程式程式碼\\網路爬蟲\\image\\' + str(i) + '.jpg'
	f = open(dir, 'wb')
	f.write(image)
	i += 1