十六、常見的反爬手段和解決思路

阿新 • • 發佈：2018-12-15

1、明確反反爬的主要思路

反反爬的主要思路就是：儘可能的去模擬瀏覽器，瀏覽器在如何操作，程式碼中就如何去實現。

例如：瀏覽器先請求了地址url1，保留了cookie在本地，之後請求地址url2，帶上了之前的cookie，程式碼中也可以這樣去實現。

2、通過headers欄位來反爬

headers中有很多欄位，這些欄位都有可能會被對方伺服器拿過來進行判斷是否為爬蟲

2.1 通過headers中的User-Agent欄位來反爬

反爬原理：爬蟲預設情況下沒有User-Agent
解決方法：請求之前新增User-Agent即可；更好的方式是使用User-Agent池來解決（收集一堆User-Agent的方式，或者是隨機生成User-Agent）

解決方案：

（1）隨機生成User-Agent

import random

def get_ua():
    first_num = random.randint(55, 62)
    third_num = random.randint(0, 3200)
    fourth_num = random.randint(0, 140)
    os_type = [
        '(Windows NT 6.1; WOW64)', '(Windows NT 10.0; WOW64)', '(X11; Linux x86_64)',
        '(Macintosh; Intel Mac OS X 10_12_6)' 

    ]
    chrome_version = 'Chrome/{}.0.{}.{}'.format(first_num, third_num, fourth_num)

    ua = ' '.join(['Mozilla/5.0', random.choice(os_type), 'AppleWebKit/537.36',
                   '(KHTML, like Gecko)', chrome_version, 'Safari/537.36']
                  )
    return ua

（2）faker模組： https://www.jianshu.com/p/6bd6869631d9

2.2 通過referer欄位或者是其他欄位來反爬

反爬原理：爬蟲預設情況下不會帶上referer欄位
解決方法：新增referer欄位

2.3 通過cookie來反爬

解決方法：
如果目標網站不需要登入每次請求帶上前一次返回的cookie，比如requests模組的session。
如果目標網站需要登入準備多個賬號，通過一個程式獲取賬號對應的cookie，組成、其他程式使用這些cookie。

3、通過js來反爬

普通的爬蟲預設情況下無法執行js，獲取js執行之後的結果，所以很多時候對方伺服器會通過js的技術實現反爬

3.1 通過js實現跳轉來反爬

反爬原理：js實現頁面跳轉，肉眼不可見
解決方法：在chrome中點選perserve log按鈕實現觀察頁面跳轉情況

在這些請求中，如果請求數量很多，一般來講，只有那些response中帶cookie欄位的請求是有用的，意味著通過這個請求，對方伺服器有設定cookie到本地

3.2 通過js生成了請求引數

反爬原理：js生成了請求引數
解決方法：分析js，觀察加密的實現過程，通過js2py獲取js的執行結果，或者使用selenium來實現

3.3 通過js實現了資料的加密

反爬原理：js實現了資料的加密
解決方法：分析js，觀察加密的實現過程，通過js2py獲取js的執行結果，或者使用selenium來實現

4、通過驗證碼來反爬

反爬原理：對方伺服器通過彈出驗證碼強制驗證使用者瀏覽行為
解決方法：打碼平臺或者是機器學習的方法識別驗證碼，其中打碼平臺廉價易用，更值得推薦

5、通過ip地址來反爬

反爬原理：正常瀏覽器請求網站，速度不會太快，同一個ip大量請求了對方伺服器，有更大的可能性會被識別為爬蟲(id+UA+賬號)
解決方法：對應的通過購買高質量的ip的方式能夠解決問題

6、通過使用者行為來反爬

反爬原理：通過瀏覽器請求資料，很多使用者行為會在瀏覽器中是很容易實現或者無法實現.比如瀏覽器請求額外的圖片地址，服務端進行記錄，出現意味著不是爬蟲(爬蟲中不會主動請求圖片)根據真實使用者的上網的行為習慣進行識別。
解決方法：通過獲取資料的情況來觀察請求，尋找異常出現的可能請求，網銀activeX控制元件。

7、其他的反爬方式

7.1通過自定義字型來反爬

下圖來自貓眼電影電腦版
在這裡插入圖片描述

解決思路：切換到手機版、截圖做影象識別、通過字型檔案處理

7.2 通過css來反爬

下圖來自貓眼去哪兒電腦版
在這裡插入圖片描述

解決思路：計算css的偏移，截圖識別

8、小結

反爬的手段非常多，但是一般而言，完全的模仿瀏覽器的行為即可

十六、常見的反爬手段和解決思路

1、明確反反爬的主要思路反反爬的主要思路就是：儘可能的去模擬瀏覽器，瀏覽器在如何操作，程式碼中就如何去實現。例如：瀏覽器先請求了地址url1，保留了cookie在本地，之後請求地址url2，帶上了之前的cookie，程式碼中也可以這樣去實現。 2、通過heade

爬蟲提高 - 1 - 常見的反爬手段和解決思路

1 明確反反爬的主要思路反反爬的主要思路就是：儘可能的去模擬瀏覽器，瀏覽器在如何操作，程式碼中就如何去實現。瀏覽器先請求了地址url1，保留了cookie在本地，之後請求地址url2，帶上了之前的cookie，程式碼中也可以這樣去實現。很多時候，爬蟲中攜帶的headers欄位，coo

常見的反爬手段和解決思路

1.通過headers中的User-Agent欄位來反爬隨機生成User-Agent： import random def get_ua(): first_num = random.randint(55, 62) third_num = random.

二十六、Linux 進程與信號---system 函數和進程狀態切換

idt erro lib IV lin sig 進入空指針權限 26.1 system 函數 26.1.1 函數說明 system（執行shell 命令）相關函數 fork，execve，waitpid，popen 1 #include <stdlib.h>

三十六、python學習之Flask框架: 藍圖和單元測試

一、藍圖和單元測試: 1.藍圖: 隨著flask程式越來越複雜,我們需要對程式進行模組化的處理,之前學習過python的模組化管理,於是針對一個簡單的flask程式進行模組化處理名詞解釋: 高內聚,低耦合: 所謂高內聚是指一個軟體模組是由相關性很強的程式碼組成，

二十六、mongodb和python互動

1. mongdb和python互動的模組 pymongo 提供了mongdb和python互動的所有方法安裝方式: pip install pymongo 2. 使用pymongo 2.1 匯入pymongo並選擇要操作的集合資料庫和集合能夠自動建立

資料科學和人工智慧技術筆記十六、樸素貝葉斯

十六、樸素貝葉斯作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 伯努利樸素貝葉斯伯努利樸素貝葉斯分類器假設我們的所有特徵都是二元的，它們僅有兩個值（例如，已經是獨熱編碼的標稱分類特徵）。 # 載入庫 import

十六、ARM和X86

隨便逮住一個人問他知不知道CPU，我想他的答案一定會是肯定的，但是如果你再問他知道ARM和X86架構麼？這兩者的區別又是什麼？絕大多數的人肯定是一臉懵逼。今天小編就帶你深入瞭解CPU的這兩大架構：ARM和X86。以後出去裝X就靠它了！重溫下CPU是什麼鬼中央處理單

三十六、深入理解tensorflow的session和graph

tensorflow作為一個基於圖結構的深度學習框架，內部通過session實現圖和計算核心的互動，那麼這個圖是什麼樣的結構，session的工作原理又是什麼樣的呢？我們通過幾段程式碼來深入理解一下 tensorflow中的基本數學運算用法 import tensorflow as tf sess

性能測試三十六：內存溢出和jvm常見參數

空間 0ms 成功 mar 大量 ali mem .com 分享堆內存溢出：此種溢出，加內存只能緩解問題，不能根除問題，需優化代碼堆內存中存在大量對象，這些對象都有被引用，當所有對象占用空間達到堆內存的最大值，就會出現內存溢出OutOfMemory:Java h

章節十六、3-TestNG方法和類註解

一、Test Suite（測試套件）我們通常認為一個testcase就是一個測試方法，但是會有很多的testcase，所以我們不可能把所有的testcase放到同一個測試類中，假如需要測試的頁面有10個，我們需要建立不同的類來測試這10個頁面的具體功能，測試具體功能的測試用例會放到具體的測試類中，把這些所有

十一、NFS服務器配置和管理

nfs配置、文件共享、autofs11.1、NFS簡介 NFS是Network File System的縮寫，中文名為網絡文件系統，它是一種能使安裝了不同操作系統的計算機之間通過網絡進行共享的網絡協議。由於NFS可以快速地進行文件共享，有效地提供資源的利用率，節省本地磁盤空間，方便集中管理，所以應用廣泛。

十二、samba服務器配置和管理

samba、文件共享12.1、Samba簡介 Linux和Windows是兩種無論在風格還是在技術上都完全不同的操作系統，它們是兩個對立的陣形。各自都擁有自己的用戶群和市場。但是，要實現這兩種系統之間的資源共享，則需要使用Samba。Samba采用的是C/S工作模式，通過它可以將一臺Linux系統主機配置為

網站常見的入侵手段和防禦方法

quest 殺傷力類型手動同方 ets 控制服務器但是網站入侵技術大概有以下幾種: 1、上傳入侵上傳入侵便是通過上傳文件來獲得權限，針對有上傳文件權限的網站實施，好比論壇可以上傳附件、資訊站可以投稿上傳圖片，這些都可能為上傳木馬提供便利，上傳木馬以後，很多信息都

《Linux內核設計與實現》讀書筆記（十六）- 頁高速緩存和頁回寫

第一次源碼進行 lose 減少文件緩存掩碼 recycle 創建主要內容：緩存簡介頁高速緩存頁回寫 1. 緩存簡介在編程中，緩存是很常見也很有效的一種提高程序性能的機制。 linux內核也不例外，為了提高I/O性能，也引入了緩存機

十六、Spring Boot 部署與服務配置

truct package pen vra 技術分享時間 gprof ica 情況 spring Boot 其默認是集成web容器的，啟動方式由像普通Java程序一樣，main函數入口啟動。其內置Tomcat容器或Jetty容器，具體由配置來決定（默認Tomcat）。當然

愛創課堂每日一題第二十六天-2017/9/28 棧和堆的區別？

前端前端學習前端入門棧區（stack）— 由編譯器自動分配釋放，存放函數的參數值，局部變量的值等。堆區（heap） — 一般由程序員分配釋放，若程序員不釋放，程序結束時可能由OS回收。堆（數據結構）：堆可以被看成是一棵樹，如：堆排序；棧（數據結構）：一種先進後出的數據結構。愛

Linux 入門記錄：十六、Linux 多命令協作：管道及重定向

不同的重定向協作 border 定向等等錯誤錯誤信息 logs 一、多命令協作在 Linux 系統當中，大多數命令都很簡單，很少出現復雜功能的命令，每個命令往往只實現一個或多個很簡單的功能。通過將不同功能的命令組合一起使用，可以實現某個復雜功能的。 Linu

二十六、XML

aso 模式測試 ext dom2 val body sof eof 二十六、XML 隨著互聯網的發展，Web應用程序的豐富，開發人員越來越希望能夠使用客戶端來操作XML技術。而XML技術一度成為存儲和傳輸結構化數據的標準。所以，本章就詳細探討一下JavaScript

ElasticStack系列之十六 & ElasticSearch5.x index/create 和 update 源碼分析

elastics quest 流程圖刪除 context pre brush 什麽 log 開篇　　在ElasticSearch 系列十四中提到的問題即 ElasticStack系列之十四 & ElasticSearch5.x bulk update 中重復 i

十六、常見的反爬手段和解決思路

1、明確反反爬的主要思路

2、通過headers欄位來反爬

2.1 通過headers中的User-Agent欄位來反爬

解決方案：

2.2 通過referer欄位或者是其他欄位來反爬

2.3 通過cookie來反爬

3、通過js來反爬

3.1 通過js實現跳轉來反爬

3.2 通過js生成了請求引數

3.3 通過js實現了資料的加密

4、通過驗證碼來反爬

5、通過ip地址來反爬

6、通過使用者行為來反爬

7、其他的反爬方式

7.1通過自定義字型來反爬

7.2 通過css來反爬

8、小結

相關推薦