CSS常見反爬技術

阿新 • • 發佈：2020-10-16

利用字型
利用背景
- 反爬原理
- 應對措施
利用偽類
- 反爬原理
- 應對措施
利用元素定位
- 反爬原理
- 應對措施
利用字元切割
- 反爬原理
- 應對措施

利用字型

反爬原理

反爬原理：
1、主要利用font-family屬性，例如設定為my-font
2、在HTML裡面不常見（不可讀）的unicode
3、在CSS字型（my-font）中將其對映到常見（可讀）到字型，例如數字
4、爬蟲在抓取資料的時候只能抓到unicode，而不是真實的資料

應對措施

1、下載woff字型檔案，轉化為tff檔案
2、用百度字型編輯器開啟tff檔案，並確定其unicode與其實際的對映關係
3、將下載的HTML內容按照對映關係替換
4、解析HTML並獲取正確的資料

難點：

有些網站會動態生成woff，這種反爬措施比較難以自動化繞開

利用背景

反爬原理

1、資料利用圖片背景（雪碧圖座標）展示給使用者，而不是直接文字展示
2、圖片包含一張雪碧圖，資料利用背景偏移量來獲取（雪碧圖座標）
3、爬蟲在抓取的時候看不到實際值，而只是圖片

應對措施

1、下載雪碧圖，手動檢查資料對應的座標值
2、找到資料對應的座標值的對映關係
3、找到對映關係，轉化為真實資料

利用偽類

反爬原理

1、不直接將內容展現到html的元素中
2、通過偽類的content屬性將要展示的值展示出來

例如：滑鼠懸浮的時候展示資料

應對措施

1、利用pyppeteer或者selenium這樣的自動化測試工具
2、在頁面上執行下面的JS程式碼，即可獲取content
注意：before是偽類，也可能是after

JS程式碼：
const el = document.querySelector("類選擇器")
const styles = getComputedStyle(el,'before')
console.log(styles.content)  # 列印資料值

利用元素定位

反爬原理

1、利用絕對定位，將資料用其他符號替換，偏移量
2、替換的符號隨機的
3、如果直接抓取，將抓到錯誤的資訊

應對措施

計算出替換的元素偏移量，與被替換的元素相對比，還原實際值

利用字元切割

反爬原理

1、將字串用標籤分割
2、由於是內聯塊級（inline-block）,可以一行展示
3、通常還混淆有不現實的標籤（display:none）

應對措施

1、將內聯塊級標籤的innerText拼接起來
2、注意過濾掉所有的display:none的屬性

CSS常見反爬技術

目錄利用字型反爬原理應對措施難點：利用背景反爬原理應對措施利用偽類反爬原理應對措施利用元素定位反爬原理應對措施利用字元切割反爬原理應對措施

記一次css字型反爬

前段時間在看css反爬的時候，發現很多網站都做了css反爬，比如，設定字型反爬的（58同城租房版塊，實習僧招聘https://www.shixiseng.com/等）設定雪碧圖反爬的（自如租房http://gz.ziroom.com/）。

北京環球影城 App 和小程式將採用“反爬技術”防止黃牛囤票、倒票等

9 月 19 日訊息中秋假期來臨，北京環球影城成為新晉熱門景區之一。此前，北京環球影城的門票第一次開售，就在半小時之內售罄，官方 App 和小程式都一度被擠崩潰。據北京青年報報道，在嚴格實名制購票基礎上，北京環

Python常見反爬蟲機制解決方案

1、使用代理適用情況：限制IP地址情況，也可解決由於“頻繁點選”而需要輸入驗證碼登陸的情況。

Python CSS選擇器爬取京東網商品資訊過程解析

CSS選擇器目前，除了官方文件之外，市面上及網路詳細介紹BeautifulSoup使用的技術書籍和部落格軟文並不多，而在這僅有的資料中介紹CSS選擇器的少之又少。在網路爬蟲的頁面解析中，CCS選擇器實際上是一把效率甚高的利

字型反爬個人心得

這裡拿四個網站舉例吧，應該涵蓋了目前字型加密的80%了吧，還有什麼網站也可以留言我後面看

爬蟲-反爬與反反爬（12）

概念：爬蟲：批量獲取對方的訊息反爬：使用技術，防止被別人爬取反反爬：使用技術，繞過反爬策略

python反爬之反除錯檢測frida

前面有一兩篇博文介紹過frida，對於做安全和逆向的朋友來說，那簡直就是象棋裡“車”的存在，走哪殺哪，所以這也對做安全的人來說，肯定也會針對frida做一定的反制，以下就是轉載的檢測frida的方法，原貼連

css常見選擇器和屬性

css概述　　為了讓網頁元素的樣式更加豐富,也為了讓網頁的內容和樣式能拆分開,CSS由此思想而誕生,CSS是 Cascading Style Sheets 的首字母縮寫,意思是層疊樣式表.有了CSS,html中大部分表現樣式的標籤就廢棄不用了,

網路動態代理反反爬

前些天，寫了個爬蟲的部落格，但是沒有實現使用動態代理反反爬，今天補充下。如果想大量爬取資料，建議還是付費購買代理。

Python3 爬蟲-字型數字反爬

爬取網站：http://www.dianping.com/xian/ch0 反爬措施：對於某些數字和中文不是直接使用文字顯示，如下圖，對於\"189條點評\"中的8和9兩個數字，\"人均￥283\"中的2、8和3三個數字，對於 \"灞臨路營背後西北200米

Python3 爬蟲-自定義字型反爬

百度字型編輯器：http://fontstore.baidu.com/static/editor/index.html 使用一種自定義的字型格式，新建ttf檔案，通過https://cloudconvert.com/ttf-to-svg網站把ttf檔案轉換為svg檔案，然後把svg檔案上傳http://