Python抓一個網頁上的所有圖片
阿新 • • 發佈:2019-01-07
這個是爬蟲的入門,因此沒有用到深度優先和廣度優先演算法,只是簡單的抓取一個頁面上的所有圖片
思路:
1.首要步驟就是要知道這個網頁的網址和這個網頁的html程式碼,你可以在firefox、chrome中使用開發者工具或者滑鼠右鍵選擇審查元素檢視程式碼
2.檢視你要找的圖片的格式,使用正則表示式表達出來,然後開始寫程式碼
其中的dir你可以根據你的需要來自己設定
# -*- coding: utf-8 -*- # @Author: # @Date: # @Last Modified by: # @Last Modified time: # coding=utf-8 import urllib.request,re response = urllib.request.urlopen('http://www.imooc.com/course/list') html = response.read().decode('utf-8') print(html) listurl = re.findall(r'src=.+\.jpg', html) listurls = [] for each in listurl: listurls.append('http:' + each[5:]) print(listurls) i = 0 for url in listurls: response = urllib.request.urlopen(url) image = response.read() dir = 'D:\\程式設計程式碼集合\\Python程式程式碼\\網路爬蟲\\image\\' + str(i) + '.jpg' f = open(dir, 'wb') f.write(image) i += 1