1. 程式人生 > >關於爬蟲風控的記錄

關於爬蟲風控的記錄

在解決一個反爬過程中,突然有了一點想法

目前大部分網站對爬蟲的忍耐度都比較高 可能缺少一個簡單好用的反爬策略吧,畢竟爬蟲與反爬是一種相互學習相互增長的過程

遇到的是這個網站想要風控的時候(可能隨機、可能檢測到了什麼但不確定)返回一串密文和一串JS,使用者使用正常瀏覽器訪問的時候,瀏覽器會預設的觸發JS,該JS會對密文進行解密(注意,密文和JS是混淆過的),然後有一串真正有效的JS生成了 ,其中還會有一些全域性變數,這串JS會觸發網站對XMLHttpRequest的修改,從而生成一串特殊密文MnEwMD=...................

 

emmmmm  看起來就比較的麻煩,不過總是有辦法的。

 

以為我會寫怎麼解決的過程嗎? 不存在的,在查問題的過程中找到一個博文,說的很詳細了,不信你們去看:http://www.qingpingshan.com/m/view.php?aid=239312

 

這裡重點說一下想法:

1. 反爬蟲重點是識別人機,所以有了驗證碼之類的,不過隨著機器識別之類的發展,簡單的驗證碼已經很難阻攔了,所以有了各種各樣的驗證碼,你看:https://007.qq.com/online.html

 

2.還有就是增加一些瀏覽器可以做,但是非瀏覽器不能做的事情,比如JS的究極加密,全域性環境變數,動態程式碼,銀行安全控制元件,然而一些自動化軟體和仿製瀏覽器依舊可以搞定

3.其他諸如cookie 、ip 這些也是能通過各種各樣的辦法解決的

4.從這次解決的問題的過程中,發現一個可能會更加有難度的思路:從網路請求入手  ,其實爬蟲 的本質就是模仿請求,打到獲取資料的目的,與其重點放在識別爬蟲的請求,不如增加返回資料的可識別難度。

 

emmm感覺有點生硬  略過略過。主要是記錄下又攻克一個難關(並非用博文裡說的辦法)