1. 程式人生 > >Python爬蟲之urllib簡單使用

Python爬蟲之urllib簡單使用

1.什麼是Urllib庫

                      Urllib是一個Python提供的用於操作URL的模組

2.簡單網頁爬取

    (1)匯入urllib庫

    (2)使用urllib.request.urlopen開啟並爬去一個網頁

                          file=urllib.request.urlopen(url)將爬取到的網頁內容賦給了file

  使用file.read()讀取全部內容(可以將讀取到的內容寫進一個html檔案)

                          filename=urllib.request.urlretrieve(url,filename=“本地檔案地址”)可以直接寫入filename檔案之中,該過程中會出現一些快取,使用urllib.request.urlcleanup()清除快取

     (3)使用getcode()獲取網頁狀態碼//////////使用geturl()獲取網頁地址

               使用urllib.request.quote()進行編碼,相反urllib.request.unquote()進行解碼