Python反爬蟲偽裝瀏覽器進行爬蟲

阿新 • • 發佈：2020-02-29

對於爬蟲中部分網站設定了請求次數過多後會封殺ip，現在模擬瀏覽器進行爬蟲，也就是說讓伺服器認識到訪問他的是真正的瀏覽器而不是機器操作

簡單的直接新增請求頭，將瀏覽器的資訊在請求資料時傳入：

開啟瀏覽器--開啟開發者模式--請求任意網站

如下圖：找到請求的的名字，開啟後檢視headers欄，找到User-Agent，複製。然後新增到請求頭中

Python反爬蟲偽裝瀏覽器進行爬蟲

程式碼如下：

import requests
url = 'https://www.baidu.com'
headers ={
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML,like Gecko) '
           'Chrome/65.0.3325.181 Safari/537.36'
    }
rq = requests.get(url=url,headers=headers)
print(rq.text)

更深的偽裝瀏覽器，新增多個瀏覽器資訊，每次請求的時候隨機發送瀏覽器資訊，讓伺服器瞭解不是一個瀏覽器一直在訪問，（可以百度查詢user-agent）

程式碼如下：

import requests
import random

url = 'https://www.baidu.com'
headers_lists =(
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML,like Gecko) '
           'Chrome/65.0.3325.181 Safari/537.36','Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;Maxthon2.0','Opera/9.80(Android2.3.4;Linux;Operamobi/adr-1107051709;U;zh-cn)Presto/2.8.149Version/11.10','Mozilla/5.0(WindowsNT6.1;rv:2.0.1)Gecko/20100101Firefox/4.0.1','Mozilla/5.0(Android;Linuxarmv7l;rv:5.0)Gecko/Firefox/5.0fennec/5.0',)

rq = requests.get(url=url,headers={'User-Agent':random.choice(headers_lists)})
print(rq.text)

完整的請求體解釋：

以下是筆者訪問百度的請求體。

Python反爬蟲偽裝瀏覽器進行爬蟲

Accept：瀏覽器端可以接受的媒體型別

Accept-Encoding：瀏覽器申明自己接收的編碼方法

Accept-Language：瀏覽器申明自己接收的語言

Connection:keep-alive 客戶端和伺服器之間還在連線中，如果關閉就是close

Host:請求報頭域主要用於指定被請求資源的Internet主機和埠號

User-Agent：使用的作業系統和瀏覽器的名稱和版本

Cookie:是用來儲存一些使用者資訊以便讓伺服器辨別使用者身份的

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

Python反爬蟲偽裝瀏覽器進行爬蟲

對於爬蟲中部分網站設定了請求次數過多後會封殺ip，現在模擬瀏覽器進行爬蟲，也就是說讓伺服器認識到訪問他的是真正的瀏覽器而不是機器操作

Python網路爬蟲（瀏覽器偽裝技術）

歡迎關注公眾號：Python爬蟲資料分析挖掘，回覆【開源原始碼】免費獲取更多開源專案原始碼

用sleep間隔進行python反爬蟲的例項講解

在找尋材料的時候，會看到一些暫時用不到但是內容不錯的網頁，就這樣關閉未免浪費掉了，下次也不一定能再次搜尋到。有些小夥伴會提出可以儲存網頁連結，但這種基本的做法並不能在網頁打不開後還能看到內容。我們完全

python爬蟲模擬瀏覽器訪問-User-Agent過程解析

這篇文章主要介紹了python爬蟲模擬瀏覽器訪問-User-Agent過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python爬蟲模擬瀏覽器的兩種方法例項分析

本文例項講述了python爬蟲模擬瀏覽器的兩種方法。分享給大家供大家參考，具體如下：

Python爬蟲使用瀏覽器cookies：browsercookie過程解析

很多用Python的人可能都寫過網路爬蟲，自動化獲取網路資料確實是一件令人愉悅的事情，而Python很好的幫助我們達到這種愉悅。然而，爬蟲經常要碰到各種登入、驗證的阻撓，讓人灰心喪氣（網站：天天碰到各種各樣的爬蟲

Python反反爬蟲實戰，JS解密入門案例，詳解呼叫有道翻譯

文章目錄前言分析分析url分析引數01分析引數02加密分析模擬請求注意點請求程式碼執行結果

python反爬蟲方法的優缺點分析

我們選擇一種問題的解決辦法，通常需要考慮到想要達到的效果，還有最重要的是這個辦法本身的優缺點有哪些，與其他的方法對比哪一個更好。之前小編之前也教過大家在python應對反爬蟲的方法，那麼小夥伴們知道具體情況

cookies應對python反爬蟲知識點詳解

在保持合理的資料採集上，使用python爬蟲也並不是一件壞事情，因為在資訊的交流上加快了流通的頻率。今天小編為大家帶來了一個稍微複雜一點的應對反爬蟲的方法，那就是我們自己構造cookies。在開始正式的構造之前，我

Python 用Redis簡單實現分散式爬蟲的方法

Redis通常被認為是一種持久化的儲存器關鍵字-值型儲存，可以用於幾臺機子之間的資料共享平臺。

python支援多執行緒的爬蟲例項

python是支援多執行緒的,主要是通過thread和threading這兩個模組來實現的，本文主要給大家分享python實現多執行緒網頁爬蟲

09 使用 Xpath 進行爬蟲開發

Xpath( XML Path Language, XML路徑語言)，是一種在 XML 資料中查詢資訊的語言，現在，我們也可以使用它在 HTML 中查詢需要的資訊。

python使用chrome driver做簡單爬蟲--轉載於簡書

使用python的urllib來抓取網頁很容易被當作爬蟲來對待下面是一個使用urllib的例子：

對微博進行爬蟲的時候，一定要注意一下訪問頻率

基本測試指令碼（python）： import time,requests def test_ip_freq(freq): if freq==0: return #測試1分鐘

Python使用正則表示式實現爬蟲資料抽取

1. 為什麼要使用正則表示式? 首先，大家來看一個例子。一個文字檔案裡面儲存了一些市場職位資訊，格式如下所示：

Python淘寶商品比價定向爬蟲，這個外包值五百嗎?

1.專案基本資訊目標：獲取淘寶搜尋頁面的資訊，提取其中的商品名稱和價格理解：淘寶的搜尋介面、翻頁的處理URL樣式：

Python淘寶商品比價定向爬蟲

1.專案基本資訊目標：獲取淘寶搜尋頁面的資訊，提取其中的商品名稱和價格理解：淘寶的搜尋介面、翻頁的處理

python系列==3、自定義爬蟲

爬蟲是一個自動提取網頁的程式，它為搜尋引擎從全球資訊網上下載網頁，是搜尋引擎的重要組成。爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的 URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入佇列

Python爬蟲：編寫簡單爬蟲之新手入門

最近整理了一下python的基礎知識，大家一般對“爬蟲”這個詞，一聽就比較熟悉，都知道是爬一些網站上的資料，然後做一些操作整理，得到人們想要的資料，但是怎麼寫一個爬蟲程式程式碼呢？相信很多人是不會的

python 如何使用find和find_all爬蟲、找文字的實現

這篇文章我們來講講如何在python使用bs4模組返回值中正確使用find和find_all來取值。