反爬蟲總結 | 必須掌握的6種反爬蟲策略

阿新 • • 發佈：2019-01-06

許多網站實現了某些措施來防止爬蟲來爬取它們，這些措施帶有不同程度的複雜性。繞過這些措施有時是困難並富有挑戰性的，有時甚至需要特定的措施。

當常常需要和這種反爬蟲網站打交道時，以下6條策略應牢記在心中：

1.動態設定你的user agent，比如python就提供了random庫函式。以下是一些著名瀏覽器的user agent的總結：

def get_user_agent():
    """
    功能：隨機獲取HTTP_User_Agent
    """
    user_agents = [
        "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
        "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
        "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
        "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
        "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
        "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
        "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
        "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
        "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
        "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
        "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
        "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
        "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
        "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 Safari/536.11",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER",
        "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; LBBROWSER)",
        "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E; LBBROWSER)",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 LBBROWSER",
        "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
        "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400)",
        "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
        "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; 360SE)",
        "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
        "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1",
        "Mozilla/5.0 (iPad; U; CPU OS 4_2_1 like Mac OS X; zh-cn) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8C148 Safari/6533.18.5",
        "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:2.0b13pre) Gecko/20110307 Firefox/4.0b13pre",
        "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:16.0) Gecko/20100101 Firefox/16.0",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
        "Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10"
    ]
    user_agent = random.choice(user_agents)
    header = {
        "User-Agent": user_agent
    }
    return header

2.禁用cookie，一些網站會使用cookie來檢測爬蟲的行為；

3.如果有可能，使用 Google Cache 來獲取頁面，而不是直接訪問網站；

4.使用IP代理池。有免費的代理池，也有收費的代理，網上有很多。有一個開源專案，叫做 scraproxy, 它非常強大，可以運用於你的專案～

5.增加延時時間。將程式睡眠時間增加到合適的大小（視網站而定）。

6.使用一個高分散式的下載器，這可以在內部繞過反爬蟲機制，這樣你就可以專注於解析頁面。這樣典型的下載器的例子有: Crawlera。

如果喜歡，就點個贊吧～

反爬蟲總結 | 必須掌握的6種反爬蟲策略

許多網站實現了某些措施來防止爬蟲來爬取它們，這些措施帶有不同程度的複雜性。繞過這些措施有時是困難並富有挑戰性的，有時甚至需要特定的措施。當常常需要和這種反爬蟲網站打交道時，以下6條策略應牢記在心中： 1.動態設定你的user agent，比如python就提供了rando

反爬蟲總結

防盜 json 很好事情常見間隔 request 兩種固然是從功能上來講，爬蟲一般分為數據采集，處理，儲存三個部分。這裏我們只討論數據采集部分。一般網站從三個方面反爬蟲：用戶請求的Headers，用戶行為，網站目錄和數據加載方式。前兩種比較容易遇到，大多數網站都

必須掌握的八種排序（5-6）--氣泡排序，快速排序

5、氣泡排序（1）基本思想：在要排序的一組數中，對當前還未排好序的範圍內的全部數，自上而下對相鄰的兩個數依次進行比較和調整，讓較大的數往下沉，較小的往上冒。即：每當兩相鄰的數比較後發現它們的排序與排序要求相反時，就將它們互換。（2）理解圖

python3.6爬蟲總結-01

zed 3.6 執行 pre created highlight log style size 1. HTTP 簡介 HTTP常見狀態碼 200/OK：請求成功 201/Created: 請求已被實現，且一個新資源已根據請求被建立，URI跟隨Location頭信息返回。

為何大量網站不能抓取?爬蟲突破封禁的6種常見方法 - 轉載

9.png 禁止 asi 屬於用戶訪問文件權限設置初始化大型右移傳送門：http://www.cnblogs.com/junrong624/p/5533655.html 在互聯網上進行自動數據采集（抓取）這件事和互聯網存在的時間差不多一樣長。今天大眾好像更傾向於

死鎖跟蹤：6種跟蹤死鎖的方法總結

時間 mda msd count avi filesize microsoft win int 原文地址：http://blog.csdn.net/kk185800961/article/details/42504857 方法一：Windows 性能計數器監控命令行輸

nginx反代httpd，實現三種tomcat代理模型至後端的tomcat服務器，會話綁定的三種方式

httpmod_jkajp 會話綁定構建tomcat集群，實現前端一臺nginx反代，到後端的apache服務器，由apache負責向後端的tomcat服務器進行資源調度，這樣的模式比直接用nginx反代到後端主機，tomcat服務器所受到的壓力會更小，服務將會更加穩定，這樣的模式是經過實踐檢驗出來的。如

必須掌握的30種SQL語句優化

大型慎用默認方案結果集將不客戶端相對 14. 1.’對查詢進行優化，應盡量避免全表掃描，首先應考慮在 where 及 order by 涉及的列上建立索引。 2.應盡量避免在 where 子句中使用!=或<>操作符，否則將引擎放棄使用索引而進行全表

直擊架構本質：優秀架構師必須掌握的幾種架構思維

bin 文章良好的設計時形狀 http 理想架構師人在介紹架構的本質是管理復雜性，抽象、分層、分治和演化思維是我們工程師/架構師應對和管理復雜性的四種最基本武器。最近團隊來了一些新人，有些有一定工作經驗，是以高級工程師/架構師身份進來的，但我發現他們大部分人思維

scrapy架構介紹及幾種反反爬

engine 結構 inf style rap load left 技術分享 http 一.scrapy架構介紹　　1.結構簡圖：　　　　主要組成部分：Spider，Pipeline，Downloader，Scheduler，Scrapy Engine（）　　2.結

Java 必須掌握的 12 種 Spring 常用註解

1.宣告bean的註解 @Component 元件，沒有明確的角色 @Service 在業務邏輯層使用（service層） @Repository 在資料訪問層使用（dao層） @Controller 在展現層使用，控制器的宣告（C） 2.注入bean的註解

安卓常用6種設計模式總結

轉載自https://blog.csdn.net/u012583459/article/details/47079529 和https://blog.csdn.net/u012583459/article/details/470

python網路爬蟲（web spider）系統化整理總結（二）：爬蟲python程式碼示例(兩種響應格式：json和html)

上一篇部落格（入門知識篇），對爬蟲有了一個基本的瞭解，但是具體怎麼實現一個爬蟲程式呢？一般情況下，我們在瀏覽器獲取資訊，是

【總結】清除webbrowser cookie/session的6種方法

下面是我測試下來的6種清除webbrowser中cookie的6種方法：往下拉有詳細用法 //方法一：呼叫 wininet.dll清除cookie (推薦) SuppressWininetBehavior(); //方法二：刪除使用者登入後的資訊,這裡相當於瀏覽器的登出功能,使用的是ie

作為阿里雲年薪500k大資料工程師必須掌握以下三種技能

阿里雲大資料在近幾年的發展速度確實超出人們的預料，自2014年3月“大資料”首次出現在《政府工作報告》中以來，國務院常務會議一年內6次提及大資料運用，而且不管是在數博會還是今年的G20當中，大資料“存在感”極高。我是一個大資料程式設計師，建了一個大資料資源共享群5931

json的三種反序列方式（轉載）

JSON（JavaScript Object Notation），在實際的開發中非常常用，甚至一個json就可以儲存所有需要的信心呢。物件：一個物件以花括號"{"開始，並以"}"結束，json儲存使用key:value形式，每一個鍵後有一個冒號

redis五種資料型別及必須掌握的指令

一、redis五種資料型別 1.string（字串） string是redis最基本的型別，你可以理解成與Memcached一模一樣的型別，一個key對應一個value。 string型別是二進位制安全的。意思是redis的string可以包含任何資料。比如jpg圖片或者序列化的物件。 s

Javaweb開發必須掌握的資料庫知識總結

一般來說，我們將網站分為前端和後端。前端主要負責頁面的展示，後端則是業務邏輯的實現，後端是由一些實現業務邏輯的Java程式碼和資料庫組成。 Javaweb做後端，資料庫方面需要掌握到哪種程度？我把我能想到的技能點給大家簡單羅列了一下，希望能對大家的工作和學習有所幫助（可能不夠完善，歡迎大家隨時補充）：

爬蟲文字的顯示問題（反反爬蟲）

轉自litang199612https://blog.csdn.net/litang199612/article/details/83413002 爬蟲遇到的問題最近在用爬蟲程式爬一些網站的時候發現爬到的資料出現亂碼，不能正常顯示：如上圖

Java 必須掌握的 12 種 Spring 常用註解！

1.宣告bean的註解 // 元件，沒有明確的角色 @Component // 在展現層使用，控制器的宣告（controller 層） @Controller // 在業務邏輯層使用（service層） @Service // 在資料訪問層使用（dao 層） @Reposit

反爬蟲總結 | 必須掌握的6種反爬蟲策略

當常常需要和這種反爬蟲網站打交道時，以下6條策略應牢記在心中：

相關推薦