1. 程式人生 > >爬蟲第一天——add_header()和get_header()

爬蟲第一天——add_header()和get_header()

header www fire 請求 agent 10.6 IT request span

 1 import urllib.request
 2 import random
 3 
 4 url = "http://www.baidu.com/"
 5 
 6 # 可以是User-Agent列表,也可以是代理列表
 7 ua_list = [
 8     "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv2.0.1) Gecko/20100101 Firefox/4.0.1",
 9     "Mozilla/5.0 (Windows NT 6.1; RV2.0.1) Gecko/20100101 Firefox/4.0.1",
10     "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11
" 11 "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36" 12 ] 13 14 # 在User-Agent列表裏隨機選擇一個 15 user_agent = random.choice(ua_list) 16 17 # 構造一個請求 18 request = urllib.request.Request(url) 19 20 # 添加/修改 一個HTTP報頭 21 request.add_header("User-Agent
", user_agent) 22 23 # 獲取一個已有的HTTP報頭值,!!只能是第一個字母大寫,其他字母小寫!! 24 25 print(request.get_header("User-agent"))

工具:python3

爬蟲第一天——add_header()和get_header()