1. 程式人生 > >Python爬蟲入門

Python爬蟲入門

spa 描述 www. 對象 根據 url get pcl res

一.

from urllib import request

res=request.urlopen(‘https://www.douban.com‘)
data = res.read()
print(data.decode(‘utf-8‘))
通過以上代碼可以獲取到豆瓣網頁源碼。

1.
urllib提供的功能就是利用程序去執行各種HTTP請求。如果要模擬瀏覽器完成特定功能,需要把請求偽裝成瀏覽器。偽裝的方法是先監控瀏覽器發出的請求,再根據瀏覽器的請求頭來偽裝,User-Agent頭就是用來標識瀏覽器的。
2.req=request.urlopen(‘https://www.douban.com‘)

首先我們調用的是request模塊裏面的urlopen方法,傳入一個URL,這個網址是豆瓣首頁,協議是HTTP協議,當然你也可以把HTTP換做FTP,FILE,HTTPS 等等,只是代表了一種訪問控制協議,urlopen一般接受三個參數,它的參數如下:

urlopen(url, data, timeout)

第一個參數url即為URL(必須傳入),第二個參數data是訪問URL時要傳送的數據(非必須),第三個timeout是設置超時時間(非必須)

第二三個參數是可以不傳送的,data默認為空None,timeout默認為 socket._GLOBAL_DEFAULT_TIMEOUT

第一個參數URL是必須要傳送的,在這個例子裏面我們傳送了豆瓣的URL,執行urlopen方法之後,返回一個response對象,返回信息便保存在這裏面。

3.

data = res.read()

res對象有一個read方法,可以返回獲取到的網頁內容。如果不通過read()方法而直接print res對象,會打印出該對象的描述,而不是網頁代碼。

Python爬蟲入門