URLLIB庫之函式介紹-爬蟲
阿新 • • 發佈:2018-12-27
URLLIB庫的urlretrieve函式用法
urlretrievel函式:
這個面數可以方便的將網頁上的一個檔案儲存到本地。以下程式碼可少非常方便的將百度的首頁下載到本地:
from urllib import request
request.urlretrdeve("http://www.baidu.com/,"baidu.html")
5 urllib庫之引數編碼和解碼函
urlencode函式:
用瀏覽器傳送請求的時,如果url中包含了中文或者其他特殊字元,那麼瀏覽器器會自動的給我們進行編碼。而如果使用傳送請求,那麼就必須手動的進行編碼。,這時就應該使用urlencode函式實現。urlencode可以把字曲資料轉換為URL編碼的資料。
示例程式碼如下:
from urllib import parse
data = {'name':'爬蟲基礎','greet':'hello world','age':100}
qs = parse.urlencode(data)
print(ps)
parse_qs函式:
可以將經過編碼後的url引數進行解碼。示例程式碼如下:
from urllib import parse qs ="ie=UTF-8&wd=%E7%AD%BE%E5%AD%97%E7%AC%94%E6%9B%BF%E8%8A%AF" print(parse.parse_qs(qs))
urlparse和URLsplit:
有時候拿到URL,想要對這個URL中的各個組成部分進行分割,那麼這時候就可以使用urlparse或是urlsplit來進行分割。示例程式碼如下:
from urllib import request,parse url = 'https://www.baidu.com/s?username=tmall' result = parse.urlsplit(url) #result = parse.urlparse(url) print('scheme',result.scheme) print('netloc',result.netloc) print('path',result.path) print('query',result.query)