Python爬蟲入門
阿新 • • 發佈:2017-08-20
spa 描述 www. 對象 根據 url get pcl res
一.
from urllib import request
res=request.urlopen(‘https://www.douban.com‘)
data = res.read()
print(data.decode(‘utf-8‘))
通過以上代碼可以獲取到豆瓣網頁源碼。
1.
urllib提供的功能就是利用程序去執行各種HTTP請求。如果要模擬瀏覽器完成特定功能,需要把請求偽裝成瀏覽器。偽裝的方法是先監控瀏覽器發出的請求,再根據瀏覽器的請求頭來偽裝,User-Agent
頭就是用來標識瀏覽器的。
2.req=request.urlopen(‘https://www.douban.com‘)
首先我們調用的是request模塊裏面的urlopen方法,傳入一個URL,這個網址是豆瓣首頁,協議是HTTP協議,當然你也可以把HTTP換做FTP,FILE,HTTPS 等等,只是代表了一種訪問控制協議,urlopen一般接受三個參數,它的參數如下:
urlopen(url, data, timeout)
第一個參數url即為URL(必須傳入),第二個參數data是訪問URL時要傳送的數據(非必須),第三個timeout是設置超時時間(非必須)。
第二三個參數是可以不傳送的,data默認為空None,timeout默認為 socket._GLOBAL_DEFAULT_TIMEOUT
第一個參數URL是必須要傳送的,在這個例子裏面我們傳送了豆瓣的URL,執行urlopen方法之後,返回一個response對象,返回信息便保存在這裏面。
3.
data = res.read()
res對象有一個read方法,可以返回獲取到的網頁內容。如果不通過read()方法而直接print res對象,會打印出該對象的描述,而不是網頁代碼。
Python爬蟲入門