1. 程式人生 > >URLLIB庫之函式介紹-爬蟲

URLLIB庫之函式介紹-爬蟲

URLLIB庫的urlretrieve函式用法
urlretrievel函式:
這個面數可以方便的將網頁上的一個檔案儲存到本地。以下程式碼可少非常方便的將百度的首頁下載到本地:

from urllib import request
request.urlretrdeve("http://www.baidu.com/,"baidu.html")


5 urllib庫之引數編碼和解碼函
urlencode函式:
用瀏覽器傳送請求的時,如果url中包含了中文或者其他特殊字元,那麼瀏覽器器會自動的給我們進行編碼。而如果使用傳送請求,那麼就必須手動的進行編碼。,這時就應該使用urlencode函式實現。urlencode可以把字曲資料轉換為URL編碼的資料。
示例程式碼如下:

    from urllib import parse
    data = {'name':'爬蟲基礎','greet':'hello world','age':100}
    qs = parse.urlencode(data)
    print(ps)


parse_qs函式:
    可以將經過編碼後的url引數進行解碼。示例程式碼如下:
    

from urllib import parse
    qs ="ie=UTF-8&wd=%E7%AD%BE%E5%AD%97%E7%AC%94%E6%9B%BF%E8%8A%AF"
    print(parse.parse_qs(qs))


urlparse和URLsplit:
    有時候拿到URL,想要對這個URL中的各個組成部分進行分割,那麼這時候就可以使用urlparse或是urlsplit來進行分割。示例程式碼如下:
  

 from urllib import request,parse
    url = 'https://www.baidu.com/s?username=tmall'
    result = parse.urlsplit(url)
    #result = parse.urlparse(url)

    print('scheme',result.scheme)
    print('netloc',result.netloc)
    print('path',result.path)
    print('query',result.query)