4.3 瀏覽器模擬--headers屬性

阿新 • • 發佈：2017-09-09

app 末尾都是 article import chrom 不支持 kit 如何

‘‘‘
4.3 瀏覽器模擬--headers屬性
‘‘‘
‘‘‘
#有的時候，我們無法爬取一些網頁，會出現403錯誤，因為這些網頁為了防止別人惡意
# 采集其信息所以進行了一些反爬蟲的設置。
#那麽，我們該如何如何爬取我們想爬的這些網頁的信息呢？
可以通過設置一些headers信息，模擬成瀏覽器去訪問這些網站。此時，就能解決這個問題。
‘‘‘
#讓爬蟲模擬成瀏覽器訪問網頁的設置方法
‘‘‘
方法一：使用build_opener()修改報頭
由於urlopen（）不支持一些HTTP的高級功能，所以，我們如果要修改報頭，可以使用
urllib2.build_opener（）進行，要爬取無法爬取的網頁，我們可以使用如下代碼：
‘‘‘
import urllib2
url = "http://blog.csdn.net/weiwei_pig/article/details/51178226"
headers=("User-Agent","Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36")
opener=urllib2.build_opener()
opener.addheaders=[headers]
data=opener.open(url).read()
‘‘‘
上述代碼中，首先，我們定義了一個變量url存儲要爬取的網址，然後再定義一個變量headers存儲對應的User-Agent信息，
定義的格式為（“User-Agent”，具體信息），具體信息我們剛才已經從瀏覽器中獲取了，該信息獲取一次即可，
以後在爬取其他網站的時候可以直接用，所以可以保存起來，不用每次都通過F12去找。

然後，我們需要使用urllib2.build_opener（）創建自定義的opener對象並賦給變量opener，接下來，設置opener對象的addheaders，即設置對應的頭信息，
設置格式為：“opener對象名.addheaders=［頭信息］”，設置好頭信息之後，我們就可以使用opener對象的open（）方法打開對應的網址了。
此時，打開操作是已經具有頭信息的打開操作行為，即會模仿為瀏覽器去打開，使用格式是“opener對象名.open（url地址）”。
打開對應網址後，再使用read（）方法讀取對應數據，並賦給data變量。
‘‘‘
#此時，我們成功實現了模擬瀏覽器去爬取對應的網頁
#可以將對應的內容寫入文件
fhandle=open("E://3.html","wb")
fhandle.write(data)
fhandle.close()
#若未發現報錯，則爬取網頁成功，同時可以看到有相關的3.html文檔

‘‘‘
方法2：使用add_header（）添加報頭
‘‘‘
import urllib2
url ="http://blog.csdn.net/weiwei_pig/article/details/51178226"
req=urllib2.Request(url)
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36")
data=urllib2.urlopen(req).read()  #對應於python3的data=urlib.request.urlopen(req).read()
‘‘‘
首先，設置要爬取的網址，然後使用urllib2.Request（url）創建一個Request對象
並賦給變量req，創建對象的格式為：urllib2.Request（url地址）。

隨後，使用add_header()方法添加對應的報頭信息，格式為：Request對象名.add_header(字段名，字段值)
此
時，已經成功設置好報頭，然後我們使用urlopen（）打開該Request對象即可打開對應網址，所以此時我們使用
data=urllib2.urlopen（req）.read（）打開了對應網址並讀取了網頁內容，並賦給了data變量。

此時，成功模擬瀏覽器爬取了對應網址的信息。我們同樣可以像方法1中一樣將對應的信息寫入文件。
‘‘‘
‘‘‘
以上兩種方法都可以實現報頭的添加，我們可以發現，這兩種方法都是使用設置報頭中的User-Agent字段信息來將對應的訪問行為模仿成瀏覽器訪問，避免了403錯誤。
只是添加報文的方法有所不同，值得註意的是，方法1中使用的是addheaders（）方法，方法2中使用的是add_header（）方法，註意末尾有無s以及有無下劃線的區別。
‘‘‘

app 末尾都是 article import chrom 不支持 kit 如何 ‘‘‘4.3 瀏覽器模擬--headers屬性‘‘‘‘‘‘#有的時候，我們無法爬取一些網頁，會出現403錯誤，因為這些網頁為了防止別人惡意# 采集其信息所以進行了一些反爬蟲的設置。#那麽，我

02Python爬蟲---瀏覽器的模擬Headers屬性

import urllib.request #匯入包使用urlopen()訪問有些網站時會出現403錯誤，禁止訪問的錯誤，這就需要爬蟲模擬成瀏覽器一、使用build_opener()修改報頭 1、注意urlopen()不支援一些HTTP的高階

瀏覽器的模擬——Headers屬性

有的時候，我們無法爬取一些網頁，會出現403錯誤，因為這些網頁為了防止別人惡意採集其資訊所以進行了一些反爬蟲的設定。那麼可以設定Header資訊，模擬瀏覽器去訪問這些網站，此時，就能解決這個問題。新增User-Agent的兩種方法方法一：使用build_opean（）

模擬瀏覽器——Headers屬性

html blog rom build csdn .cn 瀏覽器 wow request 方法一、使用build_opener()修改報頭 1 import urllib.request 2 url = "https://www.cnblogs.com" 3 header

爬蟲筆記（二）——瀏覽器的模擬（Headers屬性）

有的時候，我們無法爬取一些網頁，會出現403錯誤，因為這些網頁為了防止別人惡意採集其資訊所以進行了一些反爬蟲的設定。那麼如果我們向爬取這些網頁的資訊，應該怎麼辦呢？可以設定一些Headers資訊，模擬成瀏覽器去訪問這些網站，此時，就能夠解決這個問題了。接下來

Bootstrap 4/3 頁面基礎模板與相容舊版本瀏覽器

Bootstrap 3 與 4 差別很大，目錄檔案結構、所引入的內容也不同，這裡說說一下 Bootstrap 引入的檔案、網頁模板和相容性問題。本網站剛剛搭建好，正好發一下文章原來測試網站。 Bootstrap 4 目錄結構如下 bootstrap/ ├── css/ │ ├──

Bootstrap 4/3 頁面基礎模板與兼容舊版本瀏覽器

響應瘦身 html slim 不起作用 san bootstrap rouge neu Bootstrap 3 與 4 差別很大，目錄文件結構、所引入的內容也不同，這裏說說一下 Bootstrap 引入的文件、網頁模板和兼容性問題。本網站剛剛搭建好，正好發一下文章原來測試

山科java實驗4-3 寫一個彩票的模擬程式：30選7。

寫一個彩票的模擬程式：30選7。隨機（1~30之間）生成7個隨機數，注意不能重複。然後從鍵盤輸入7個數，對比7個數是否與隨機數有相同的。最後顯示“中了幾個號”。同時，如果中了7個號，顯示一等獎；如果中了6個號，顯示二等獎；如果中了5個號，顯示三等獎。要求：首先在註釋中寫出程式的實現思想，特別是程

西瓜書課後習題4.3 基於資訊熵決策樹，連續和離散屬性，並驗證模型

import matplotlib.pyplot as plt import numpy as np from math import log import operator import csv def readDataset(filename): ''' 讀取資料 :

《演算法筆記》3.4小節——入門模擬->日期處理問題 A: 日期差值

把握今天，才能擁有明天！難受~~~ #include <stdio.h> int month[13][2] = {{0,0},{31,31},{28,29},{31,31},{30,30},{31,31},{30,30},{31,31},{31,31},{

《演算法筆記》3.4小節——入門模擬->日期處理問題 B: Day of Week

把握今天，才能擁有明天！ #include <cstdio> #include <cstring> char month[15][20] = { {}, {"January"}, {"February"}, {"March"}, {"April

《演算法筆記》3.4小節——入門模擬->日期處理問題 C: 列印日期

把握今天，才能擁有明天！ #include<stdio.h> bool run(int aha) { if((aha%4==0&&aha%100!=0)||aha%400==0) return true; else

《演算法筆記》3.4小節——入門模擬->日期處理問題 D: 日期類

把握今天，才能擁有明天！上一題改改就是了。 #include<stdio.h> bool run(int aha) { if((aha%4==0&&aha%100!=0)||aha%400==0) return tr

《演算法筆記》3.4小節——入門模擬->日期處理問題 E: 日期累加

把握今天，才能擁有明天！ #include <stdio.h> bool run(int aha) { if((aha%4==0&&aha%100!=0)||aha%400==0) return true; el

3.2 Linux檔案屬性(3、4節)

3.2.3.stat函式的應用案例 3.2.3.1、用程式碼判斷檔案型別 (1)檔案型別就是-、d、l···· (2)檔案屬性中的檔案型別標誌在struct stat結構體的mode_t st_mode元素中，這個元素其實是一個按位來定義的一個位標誌（有點類似於AR

西瓜書習題4.3 基於資訊熵決策樹，連續和離散屬性

from math import log import operator import csv def readDataset(filename): ''' 讀取資料 :param filename: 資料檔名，CSV格式 :return:

讀書筆記-《Effective Java》第3條、第4條：強化Singleton屬性—私有構造器或者列舉型別

第3條：用私有構造器或者列舉型別強化Singleton屬性把構造器私有這個是單例基本要求，本條介紹了一種不知道為啥沒有流行起來的單例方式（實現Singleton的最佳方式），包含單個元素的列舉型別（INSTANCE不是關鍵字，寫別的也行） package org.test; p

vue.js入門（3-4）（methods，屬性繫結）

//index.html<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title></title> <scri

解決kali linux 2.0(2016.01)安裝VMware,VirtualBox出現的linux-headers-4.3.0-kali1-amd64包的問題

安裝了kali linux 2.0，在裝虛擬機器VMware或者Virtual box 時需要安裝核心頭部linux-headers-4.3.0-kali1-amd64。我的源配置了中科大、阿里和網易源。但是使用apt-get時，找不到linux-heade

Eclipse Kepler(4.3)安裝jad反編譯插件

index.php height features eclispe general 一個版本 java_home pat 1.下載jad，地址：http://varaneckas.com/jad/（根據自己的系統選擇一個下載） 2.下載jad插件，地址：http://ja

4.3 瀏覽器模擬--headers屬性

相關推薦