urllib庫基本使用
阿新 • • 發佈:2018-04-14
pen 爬取網頁 中文 狀態 imp 基本 geturl urllib utf
#導入urllib庫 import urllib.request #打開網址 file=urllib.request.urlopen("http://www.sohu.com/",timeout=5) #讀取網頁源碼 file.read().decode("utf-8","ignor") #返回爬取網頁的狀態碼 print(file.getcode()) #獲取當前訪問網頁的url print(file.geturl()) #清除網頁緩存 urllib.request.urlcleanup() #直接下載網頁到本地,在下載圖片、音頻等時候使用 # urllib.request.urlretrieve("網址","本地文件存儲路徑+文件名")urllib.request.urlretrieve("http://audio.xmcdn.com/group6/M05/A8/FF/wKgDg1dsApazZL0ZAKval9KT2Hc966.m4a","I:/?555555555555") #網址拼接時,需轉碼 ‘‘‘ 如果在構造網址時需要將中文拼接進去時,最好轉下碼再拼接 ‘‘‘ keywd="汪峰" keywd=urllib.request.quote(keywd) url="http://www.baidu.com/s?wd="+keywd
urllib庫基本使用