1. 程式人生 > >record-12 爬蟲程序練習

record-12 爬蟲程序練習

爬蟲 utf-8 read 打開 open 保存 true 方法 網頁

#__author: hasee
#date:  2018/1/20

from urllib.request import urlopen, urlretrieve
from urllib.parse import quote
from re import findall

url = ‘http://www.cdtest.cn/‘  # 確定URL
f = urlopen(url)  # 利用urlopen()打開URL資源文件
content = f.read()  # 讀取文件內容
# content=content.decode(encoding=‘utf-8‘) #將讀取到的內容解碼處理,轉換成字符串
print(content)
f.close()  # 關閉文件

# 正則表達式中|符號表示或者
url_list = findall(r‘img/.*png|img/.*jpg‘, content)  # 利用正則表達式獲取網頁中所有png/jpg的圖片URL,並存放在列表中
print(url_list)
for u in url_list:  # 循環遍歷列表,依次完成列表中每一個url的處理
    url1 = url + quote(u)  # 網頁中圖片URL不完整,需要補充‘http://www.cdtest.cn/‘,並且因為URL中包含中文,利用quote方法進行編碼處理

    u1 = u.split(‘/‘)  # 提取圖片URL中最後的圖片名稱,在下載時作為本地保存名稱使用
    path1 = ‘e:\\test\\‘ + u1[-1]  # 設置下載時,本地保存路徑

    urlretrieve(url1, path1)  # 開始完成當前url1所標識圖片資源的下載

  

record-12 爬蟲程序練習