1. 程式人生 > >urllib庫基本使用

urllib庫基本使用

pen 爬取網頁 中文 狀態 imp 基本 geturl urllib utf

#導入urllib庫
import urllib.request
#打開網址
file=urllib.request.urlopen("http://www.sohu.com/",timeout=5)
#讀取網頁源碼
file.read().decode("utf-8","ignor")
#返回爬取網頁的狀態碼
print(file.getcode())
#獲取當前訪問網頁的url
print(file.geturl())
#清除網頁緩存
urllib.request.urlcleanup()
#直接下載網頁到本地,在下載圖片、音頻等時候使用
# urllib.request.urlretrieve("網址","本地文件存儲路徑+文件名")
urllib.request.urlretrieve("http://audio.xmcdn.com/group6/M05/A8/FF/wKgDg1dsApazZL0ZAKval9KT2Hc966.m4a","I:/?555555555555") #網址拼接時,需轉碼 ‘‘‘ 如果在構造網址時需要將中文拼接進去時,最好轉下碼再拼接 ‘‘‘ keywd="汪峰" keywd=urllib.request.quote(keywd) url="http://www.baidu.com/s?wd="+keywd

urllib庫基本使用