1. 程式人生 > >爬蟲普及,Web安全更需註意

爬蟲普及,Web安全更需註意

image robots文件 工具 查看 支持 ips 區別 proc 密碼

互聯網技術上不斷發展,Python的普及以及代理ip的進一步穩定,爬蟲技術也得到了前所未有的優化。過去我們或許還會為抓取海量數據而頭痛。但現在,不斷優化的網絡爬蟲技術,卻能夠輕松應對這個問題,為高效搜索用戶關註的特定領域與主題提供了有力支撐。而網絡爬蟲現在也逐漸發展成為涵蓋數據抽取、機器學習、數據挖掘、語義理解等多種方法綜合應用的智能工具。

凡事都有兩面性,網絡爬蟲帶太陽HTTP來便利的同時,也網站的安全問題帶來了不小的隱患,惡意用戶可以利用爬蟲程序對Web站點發動DoS***,使Web服務在大量爬蟲程序的暴力訪問下,資源耗盡而不能提供正常服務。惡意用戶還可能通過網絡爬蟲抓取各種敏感資料用於不正當用途,主要表現在以下幾個方面:

1)搜索測試頁面、手冊文檔、樣本程序及可能存在的缺陷程序
大多數Web服務器軟件附帶了測試頁面、幫助文檔、樣本程序及調試用後門程序等。這些文件往往會泄漏大量的系統信息甚至提供繞過認證直接訪問Web服務數據的方法,成為惡意用戶分析***Web服務器的有效情報來源。而且這些文件的存在本身也暗示網站中存在潛在的安全漏洞。

2)搜索互聯網用戶的個人資料
互聯網用戶的個人資料包括姓名、×××號、電話、Email地址、QQ號、通信地址等個人信息,惡意用戶獲取後容易利用社會工程學實施***或詐騙。

3)搜索管理員登錄頁面
許多網絡產品提供了基於Web的管理接口,允許管理員在互聯網中對其進行遠程管理與控制。如果管理員疏於防範,沒有修改網絡產品默認的管理員名及密碼,一旦其管理員登錄頁面被惡意用戶搜索到,網絡安全將面臨極大的威脅。

4)搜索目錄列表
互聯網中的許多Web服務器在客戶端請求該站點中某個沒有默認頁面的目錄時,會返回一個目錄列表。該目錄列表通常包括可供用戶點擊的目錄和文件鏈接,通過這些鏈接可以訪問下一層目錄及當前目錄中的文件。因而通過抓取目錄列表,惡意用戶往往可獲取大量有用的資料,包括站點的目錄結構、敏感文件以及 Web服務器設計架構及配置信息等等,比如程序使用的配置文件、日誌文件、密碼文件、數據庫文件等,都有可能被網絡爬蟲抓取。這些信息可以作為挑選***目標或者直接***站點的重要資料。

如何應對爬蟲的安全威脅

由於網絡爬蟲帶來的安全威脅,不少網站的管理人員都在考慮對爬蟲訪問進行限制甚至拒絕爬蟲訪問。
限制爬蟲可以通過以下幾種方法實現:

1) 設置robots.txt文件
限制爬蟲最簡單的方法是設置robots.txt文件。robots.txt文件是搜索引擎爬蟲訪問網站的時候要查看的第一個文件,它告訴爬蟲程序在服務器上什麽文件是可以被查看的,如設置Disallow: /,則表示所有的路徑均不能查看。遺憾的是並不是所有的搜索引擎爬蟲會遵守這個規則,因此僅僅設置robots文件是不夠的。

2) User Agent識別與限制
一般的爬蟲程序都可以通過其HTTP請求中的User Agent字段進行識別,該字段使服務器能夠識別客戶使用的操作系統及版本、CPU類型、瀏覽器及版本、瀏覽器渲染引擎、瀏覽器語言、瀏覽器插件等。

3) 通過訪問行為特征識別與限制
對於在HTTP請求的User Agent字段刻意偽裝成瀏覽器的爬蟲,可以通過其訪問行為特征進行識別。爬蟲程序的訪問一般是有規律性的頻率比較高,區別於真實用戶瀏覽時的隨意性與低 頻率。對這類爬蟲的限制原理與DDoS***的防禦原理很相似,都基於統計數據。對於這類爬蟲的限制只能通過應用識別設備、IPS等能夠做深度識別的網絡設 備來實現。

無論是爬蟲還是反爬蟲,都少不了代理ip的支持,在互聯網的無聲世界裏,爬蟲之間的戰爭從未停止過,勝利的關鍵就在於能否真正阻攔或者突破對方的侵入或者限制。這裏還是呼籲,合理使用爬蟲技術,不要做違法的事情。love&paece
技術分享圖片

爬蟲普及,Web安全更需註意