record-12 爬蟲程序練習
阿新 • • 發佈:2018-01-20
爬蟲 utf-8 read 打開 open 保存 true 方法 網頁
#__author: hasee #date: 2018/1/20 from urllib.request import urlopen, urlretrieve from urllib.parse import quote from re import findall url = ‘http://www.cdtest.cn/‘ # 確定URL f = urlopen(url) # 利用urlopen()打開URL資源文件 content = f.read() # 讀取文件內容 # content=content.decode(encoding=‘utf-8‘) #將讀取到的內容解碼處理,轉換成字符串 print(content) f.close() # 關閉文件 # 正則表達式中|符號表示或者 url_list = findall(r‘img/.*png|img/.*jpg‘, content) # 利用正則表達式獲取網頁中所有png/jpg的圖片URL,並存放在列表中 print(url_list) for u in url_list: # 循環遍歷列表,依次完成列表中每一個url的處理 url1 = url + quote(u) # 網頁中圖片URL不完整,需要補充‘http://www.cdtest.cn/‘,並且因為URL中包含中文,利用quote方法進行編碼處理 u1 = u.split(‘/‘) # 提取圖片URL中最後的圖片名稱,在下載時作為本地保存名稱使用 path1 = ‘e:\\test\\‘ + u1[-1] # 設置下載時,本地保存路徑 urlretrieve(url1, path1) # 開始完成當前url1所標識圖片資源的下載
record-12 爬蟲程序練習