伺服器反爬蟲攻略：Apache/Nginx/PHP禁止某些User Agent抓

阿新 • • 發佈：2018-12-20

我們都知道網路上的爬蟲非常多，有對網站收錄有益的，比如百度蜘蛛（Baiduspider），也有不但不遵守robots規則對伺服器造成壓力，還不能為網站帶來流量的無用爬蟲，比如宜搜蜘蛛（YisouSpider）。最近張戈發現nginx日誌中出現了好多宜搜等垃圾的抓取記錄，於是整理收集了網路上各種禁止垃圾蜘蛛爬站的方法，在給自己網做設定的同時，也給各位站長提供參考。

一、Apache

①、通過修改 .htaccess檔案

修改網站目錄下的.htaccess，新增如下程式碼即可（2種程式碼任選）：

可用程式碼 (1)：

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (^$|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) [NC]
RewriteRule ^(.*)$ - [F]

可用程式碼 (2)：

SetEnvIfNoCase ^User-Agent$ .*(FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) BADBOT
Order Allow,Deny
Allow from all
Deny from env=BADBOT

②、通過修改httpd.conf配置檔案

找到如下類似位置，根據以下程式碼新增 / 修改，然後重啟Apache即可：

DocumentRoot /home/wwwroot/xxx

SetEnvIfNoCase User-Agent ".*(FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms)" BADBOT
 Order allow,deny
 Allow from all
 deny from env=BADBOT

二、Nginx程式碼

進入到nginx安裝目錄下的conf目錄，將如下程式碼儲存為 agent_deny.conf

cd /usr/local/nginx/conf

vim agent_deny.conf

#禁止Scrapy等工具的抓取
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
 return 403;
}
#禁止指定UA及UA為空的訪問
if ($http_user_agent ~ "FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) {
 return 403; 
}
#禁止非GET|HEAD|POST方式的抓取
if ($request_method !~ ^(GET|HEAD|POST)$) {
 return 403;
}

然後，在網站相關配置中的 location / { 之後插入如下程式碼：

include agent_deny.conf;

如張戈部落格的配置：

[[email protected]_Server ~]$ cat /usr/local/nginx/conf/zhangge.conf 
location / {
 try_files $uri $uri/ /index.php?$args;
 #這個位置新增1行：
 include agent_deny.conf;
 rewrite ^/sitemap_360_sp.txt$ /sitemap_360_sp.php last;
 rewrite ^/sitemap_baidu_sp.xml$ /sitemap_baidu_sp.php last;
 rewrite ^/sitemap_m.xml$ /sitemap_m.php last;

儲存後，執行如下命令，平滑重啟nginx即可：

/usr/local/nginx/sbin/nginx -s reload

三、PHP程式碼

將如下方法放到貼到網站入口檔案index.php中的第一個

//獲取UA資訊
$ua = $_SERVER['HTTP_USER_AGENT'];
//將惡意USER_AGENT存入陣列
$now_ua = array('FeedDemon ','BOT/0.1 (BOT for JCE)','CrawlDaddy ','Java','Feedly','UniversalFeedParser','ApacheBench','Swiftbot','ZmEu','Indy Library','oBot','jaunty','YandexBot','AhrefsBot','YisouSpider','jikeSpider','MJ12bot','WinHttp','EasouSpider','HttpClient','Microsoft URL Control','YYSpider','jaunty','Python-urllib','lightDeckReports Bot');
//禁止空USER_AGENT，dedecms等主流採集程式都是空USER_AGENT，部分sql注入工具也是空USER_AGENT
if(!$ua) {
header("Content-type: text/html; charset=utf-8");
wp_die('請勿採集本站，因為採集的站長木有小JJ！');
}else{
 foreach($now_ua as $value )
//判斷是否是陣列中存在的UA
 if(eregi($value,$ua)) {
 header("Content-type: text/html; charset=utf-8");
 wp_die('請勿採集本站，因為採集的站長木有小JJ！');
 }
}

四、測試效果

如果是vps，那非常簡單，使用curl -A 模擬抓取即可，比如：

模擬宜搜蜘蛛抓取：

curl -I -A 'YisouSpider' zhangge.net

模擬UA為空的抓取：

curl -I -A '' zhangge.net

模擬百度蜘蛛的抓取：

curl -I -A 'Baiduspider' zhangge.net

三次抓取結果截圖如下：

可以看出，宜搜蜘蛛和UA為空的返回是403禁止訪問標識，而百度蜘蛛則成功返回200，說明生效！

補充：第二天，檢視nginx日誌的效果截圖：

①、UA資訊為空的垃圾採集被攔截：

②、被禁止的UA被攔截：

因此，對於垃圾蜘蛛的收集，我們可以通過分析網站的訪問日誌，找出一些沒見過的的蜘蛛（spider）名稱，經過查詢無誤之後，可以將其加入到前文程式碼的禁止列表當中，起到禁止抓取的作用。

五、附錄：UA收集

下面是網路上常見的垃圾UA列表，僅供參考，同時也歡迎你來補充。

FeedDemon 內容採集
BOT/0.1 (BOT for JCE) sql注入
CrawlDaddy sql注入
Java 內容採集
Jullo 內容採集
Feedly 內容採集
UniversalFeedParser 內容採集
ApacheBench cc攻擊器
Swiftbot 無用爬蟲
YandexBot 無用爬蟲
AhrefsBot 無用爬蟲
YisouSpider 無用爬蟲
jikeSpider 無用爬蟲
MJ12bot 無用爬蟲
ZmEu phpmyadmin 漏洞掃描
WinHttp 採集cc攻擊
EasouSpider 無用爬蟲
HttpClient tcp攻擊
Microsoft URL Control 掃描
YYSpider 無用爬蟲
jaunty wordpress爆破掃描器
oBot 無用爬蟲
Python-urllib 內容採集
Indy Library 掃描
FlightDeckReports Bot 無用爬蟲
Linguee Bot 無用爬蟲

伺服器反爬蟲攻略：Apache/Nginx/PHP禁止某些User Agent抓

我們都知道網路上的爬蟲非常多，有對網站收錄有益的，比如百度蜘蛛（Baiduspider），也有不但不遵守robots規則對伺服器造成壓力，還不能為網站帶來流量的無用爬蟲，比如宜搜蜘蛛（YisouSpider）。最近張戈發現nginx日誌中出現了好多宜搜等垃圾的抓取記錄，於是整

Nginx反爬蟲攻略：禁止某些User Agent抓取網站

我們都知道網路上的爬蟲非常多，有對網站收錄有益的，比如百度蜘蛛（Baiduspider），也有不但不遵守robots規則對伺服器造成壓力，還不能為網站帶來流量的無用爬蟲，比如宜搜蜘蛛（YisouSpider）（最新補充

python3爬蟲攻略（9）：requests的使用

Requests 唯一的一個非轉基因的 Python HTTP 庫，人類可以安全享用。 Requests繼承了urllib的所有特性。 Requests支援HTTP連線保持和連線池，支援使用cookie保持會話，支援檔案上傳，支援自動確定響應內容的編碼，支援

Apache WEB伺服器配置全攻略

　　Apache伺服器的設定檔案位於/usr/local/apache/conf/目錄下，傳統上使用三個配置檔案httpd.conf,access.conf和srm.conf，來配置Apache伺服器的行為。　　httpd.conf提供了最基本的伺服器配置，是對守護程式

mac攻略(2) -- apache站點配置

打開 virt php5 更改用戶組 username roo 默認 apache [http://www.cnblogs.com/redirect/p/6112164.html] Mac OS X 中默認有兩個目錄可以直接運行你的 Web 程序，一個是系統級的 W

程序員神級跳槽攻略：什麽時候該跳？做什麽準備？到哪裏找工作？

博文大賽 contain 關心實習生 lag 企業創新思維任務法則 1、引言每年的3、4月份都是求職高峰時期，目前已進入6、7月份了，你已經成功換工作了嗎？這次我們想聊的，就是程序員跳槽這件事兒，我打算從三個方面來說： 1）程序員什麽時候該跳槽？ 2）跳槽前你

Python Challenge 第 5 關攻略：peak

odi pen soft auth name open 攻略 data import # -*- coding: utf-8 -*- # @Time : 2018/9/26 14:03 # @Author : cxa # @File : pickledemo.

PDF文件格式轉換攻略：PDF格式轉換圖片格式

shadow convert img 分享方式自定義手機 RoCE 方法關於PDF文件格式的轉換大家有了解多少嗎？就比如將PDF格式轉換成圖片格式，可能之前大家對於PDF件大家都有了解到，辦公中我們經常遇到過。現在小編在這裏教大家如何將PDF格式轉換成圖片格式，有興

攻略：蘋果手機投屏電腦 iPhone鏡像投屏怎麽操作

phone vpd mage oss proc 展示 tex 出現屏幕外出遊玩拍照已經是必不可以少的一項程序，記下美好的瞬間，回到家中，可以與家人一起分享，每個照片背後都是一個小故事，那如果全家很多人想一起瀏覽這些照片怎麽辦呢？不會只是想通過家庭群吧！那對於一些年齡稍長

2018雙11全攻略：超級紅包和各種優惠券的領取方法

參與感新的滿足更新狂歡節選擇所有回饋不同的今年全球最大的購物狂歡節又又又要開始了，每到全球狂歡節很多朋友都忍不住要剁手，尤其是女孩子，因為一年一度的大促銷真的很給力，哈哈。但每過完雙11都有好友跟小喵抱怨，她看好幾款商品等到11號當天，發現優惠打折信息是

職場寒冬下的求職攻略：我是如何在兩周內找到工作的

職場所有工作 it技術過程一句話很多學歷電話總算是offer談定，自己也算是對過去兩周的集中面試有了一個交代。離職後的這三周，除去第一周沒有安排面試，緊接著就是集中面試過程。其間，有歡喜，有高興，有失落，也有難過，幾多辛酸，也算是在職場寒冬中

App推廣攻略：6種渠道追蹤方法及渠道資料分析的新思路

市場運營：App 渠道追蹤的5種方法以及渠道資料分析的兩大思路，移動網際網路的流量紅利逐漸褪去，數以百萬的 App 正在一個存量市場中搶佔使用者；誰能提高獲客效率，誰就有可能在激烈的競爭中勝。都在做 App 推廣，為什麼就你的客單價居高不下？同樣的100塊錢，為何別人花出了500

PDF檔案格式轉換攻略：PDF格式轉換圖片格式

關於PDF檔案格式的轉換大家有了解多少嗎？就比如將PDF格式轉換成圖片格式，可能之前大家對於PDF件大家都有了解到，辦公中我們經常遇到過。現在小編在這裡教大家如何將PDF格式轉換成圖片格式，有興趣的夥伴可以學著嘗試一下！ 1、操作之前可以將轉換成圖片格式的PDF檔案另存到電腦桌面上，這樣便於在後面的操作。

Numpy攻略：用埃氏篩篩選

埃氏篩：篩選質數的一種演算法，用迭代的方式識別出已經找到的質數的倍數，能高效地篩選出小於一千萬的質數。讓我們去試著尋找10001個質數。具體步驟如下： 1.建立一個連續的整數列表：用arange函式 2.篩選出p的倍數完整程式碼如下圖： import numpy

Numpy攻略：模擬在隨機時間點

具體步驟： 1.生成隨機索引：用randint函式生成隨機整數 2.模擬交易過程：用Numpy的take函式，從收盤價陣列中選取若干函式。 3.繪製利潤直方圖完整程式碼如下： import numpy import fix_yahoo_finance as yf yf.pdr_over

Numpy攻略：發現冪律

冪律分佈：用於描述財富的不均勻性，即富翁的精英所佔的都很少。具體步驟： 1.提取正的收益率資料：計算收盤價的對數並且對結果進行差分運算，之後從收益率資料中，選出正值。 2.獲取收益率的收益頻率：使用histogram函式，獲得收益率的出現頻率。分組計算，並返回一個包含各組計數值的陣列。 3

Numpy攻略：確定穩態

馬爾可夫鏈：被用來描述至少有兩個狀態的系統，指數學中具有馬爾可夫性質的離散事件隨機過程。該過程中，在給定當前知識或資訊的情況下，過去（即當前以前的歷史狀態）對於預測將來（即當前以後的未來狀態）是無關的。此類系統t時刻的狀態僅取決於t-1時刻的狀態。穩態：在未來某個時刻之後或者從

Numpy攻略：尋找最大回文數

迴文數指從左往右讀和從右往左讀都一樣的數字，我們尋找由兩個三位數相乘而獲得的最大回文數。具體步驟： 1.建立一個由三位數構成的陣列用numpy.testing包中的assert_equal函式，檢查陣列中的第一個元素和最後一個元素是否正確。 2.建立乘積陣列建立一個數組，用來存放所有的

Numpy攻略：尋找質因

Fermat因式分解法基本思路：用如下公式把N分成c和d兩個整數：遞迴地應用這個因式分解法，直到得到需要的質因數。具體步驟： 1.建立嘗試值陣列：用ceil函式對其輸入的引數的陣列元素向上取整（選擇大於等於x的最小整數）。 2.得到陣列b的小數部分：檢查陣列b2中的元素是否為某個

Numpy攻略：Numpy常用函式之斐波那契數列

NumPy 是一個 Python 的第三方庫，代表 “Numeric Python”，主要用於數學/科學計算。它是一個由多維陣列物件和用於處理陣列的例程集合組成的庫。 1.sqrt函式：計算平方根示例：黃金分割比的計算程式碼段如下： import numpy #使

伺服器反爬蟲攻略：Apache/Nginx/PHP禁止某些User Agent抓

相關推薦