隱式 Style–CSS 在反爬蟲中的應用

阿新 • • 發佈：2019-10-11

隱式 Style–CSS 在反爬蟲中的應用

什麼是隱式 Style–CSS

先來嘮嘮什麼是 隱式 Style–CSS:

CSS中，::before 建立一個偽元素，其將成為匹配選中的元素的第一個子元素。常通過 content 屬性來為一個元素新增修飾性的內容

源自：https://developer.mozilla.org

上面的這段引用，看著有點難懂，沒關係我們用下面這個例子簡單演示一下。

我們新建一個 HTML 檔案輸入下面這樣的內容：

<q>大家好，我是鹹魚</q>，<q>我是 NightTeam 的一員</q>

源自：https://developer.mozilla.org

並在這個 HTML 中引用下面這個樣式檔案：

q::before { 
  content: "«";
  color: blue;
}
q::after { 
  content: "»";
  color: red;
}

源自：https://developer.mozilla.org

最後在瀏覽器中展示的內容是這樣的：

<<大家好，我是鹹魚>>,<<我是 NightTeam 的一員>>

源自：https://developer.mozilla.org

可以看到在上面的例子裡，我在原始碼裡隱藏了文字前後的符號，但是在瀏覽器顯示的時候卻是正常的。

目前很多小說網站都使用了類似這樣的反爬技術保護自己的內容不被爬蟲爬取。

那麼類似這樣的反爬技術應該怎麼處理？

例項講解

鹹魚準備了一個例子簡單實戰一下，用例項講講我遇到這類反爬是如何處理的。

這個例子執行在本地，所以就沒有分析請求的步驟，直接分析下瀏覽器顯示與原始碼分別什麼樣，找找有沒有什麼突破口。

瀏覽器展示：

瀏覽器顯示

原始碼顯示：

原始碼顯示

可以在原始碼中看到部分內容被<span class="context_kwx"></span>替換。

頁面分析

開啟開發者模式，看看隱藏的文字是什麼樣子的。【圖2-1】

可以看到在【圖2-1】裡方框 2 中 content 的內容正是方框 1 在原始碼頁面裡隱藏的內容。

這符合我們在第一部分關於 隱式 style-css 的舉例。

那麼為了能夠拿到全部的內容，我們只需要把替換掉的span標籤替換回【圖2-1】中方框 2 裡的 content 的值就可以了。

按照正常的頁面結構，可以通過點選【圖2-2】中框選的地方直接跳轉到 CSS 檔案的位置。

圖2-2

但是在我們這個頁面結構裡沒有這樣可以點選的位置，所以我們只能通過分析 span 標籤的規律找找突破口。

所有的 span 標籤的類名都是 context_kw 加上一個數字拼接的，我們試著搜尋 context_kw 找找。

可以看到在檔案裡找到了與 context_kw 相關的 JS 程式碼。【圖2-3】

大致瀏覽了整段 JS 程式碼，這段 JS 通過功能分為兩個部分。【圖2-4】

圖2-4

第一部分：CryptoJS的加解密的邏輯內容，可以忽略

第二部分：經過變數名混淆的內容，第二部分的 JS 對陣列中的密文進行解密，並操作了 DOM ，完成了將 JS 與 CSS 結合完成了反爬最主要的邏輯。

部分加密分析

根據第二部分中操作 DOM 的程式碼，我們找到關鍵變數word。

for (var i = 0x0; i < words[_0xea12('0x18')]; i++) {
            try {
                document[_0xea12('0x2a')][0x0][_0xea12('0x2b')]('.context_kw' + i + _0xea12('0x2c'), 'content:\x20\x22' + words[i] + '\x22');
            } catch (_0x527f83) {
                document['styleSheets'][0x0]['insertRule'](_0xea12('0x2d') + i + _0xea12('0x2e') + words[i] + '\x22}', document[_0xea12('0x2a')][0x0][_0xea12('0x2f')][_0xea12('0x18')]);
            }
        }

再繼續找到 word 的變數宣告的地方。

var secWords = decrypted[_0xea12('0x16')](CryptoJS['enc']['Utf8'])[_0xea12('0x17')](',');
var words = new Array(secWords[_0xea12('0x18')]);

按照這個方法，我們最後發現 CSS 的 content 的內容都是陣列 _0xa12e 中一個經過加密的元素用 AES解密後經過一定處理得到的值。

有了這樣的一個邏輯框架之後我們就可以直接開始扣取我們需要的 JS 程式碼了。

加密程式碼修改

這個程式碼比較簡單，具體的扣取步驟就不演示了，這裡演示兩個在扣取程式碼之後兩個需要改寫的點。

第一個是【圖2-5】中的異常捕獲，這裡判斷了當前的 URL 是否相等，但是我們在 Node 環境下執行是沒有 window 屬性的，如果不做修改會出現異常，所以需要把這裡的 if 判斷語句註釋。

圖2-5

第二個是【圖2-6】中在返回中的判斷語句，同樣是對 Node 中不存在的屬性進行判斷，所以同樣需要在這裡進行相應的修改。

圖2-6

例如：

_0x1532b6[_0xea12('0x26')](_0x490c80, 0x3 * +!('object' === _0xea12('0x27')))

以上兩點修改完後就可以獲取到所有被替換過的字元了。

總結

本文簡單描述了隱式 Style–CSS 在反爬蟲中的應用，並通過一個簡單的例項學習如果在反反爬蟲中應對。

這個例子或許不夠完善，沒有完全覆蓋到隱式 Style–CSS 在反爬蟲中的應用，如果讀者朋友對這類反爬蟲有興趣的話不妨多找幾個例子自己動手試試，也歡迎通過留言區與我交流討論。

文章作者：「夜幕團隊 NightTeam」 - 戴煌金

潤色、校對：「夜幕團隊 NightTeam」 - Loco

夜幕團隊成立於 2019 年，團隊包括崔慶才、周子淇、陳祥安、唐軼飛、馮威、蔡晉、戴煌金、張冶青和韋世東。

涉獵的程式語言包括但不限於 Python、Rust、C++、Go，領域涵蓋爬蟲、深度學習、服務研發、物件儲存等。團隊非正亦非邪，只做認為對的事情，請大家小心。

本篇文章由一文多發平臺Ar

相關推薦

 隱式 Style–CSS 在反爬蟲中的應用

隱式 Style–CSS 在反爬蟲中的應用什麼是隱式 Style–CSS 先來嘮嘮什麼是隱式 Style–CSS:

爬蟲實踐---悅音臺mv排行榜與簡單反爬蟲技術應用

代碼 int logs 1.8 mac for html req 3.5 由於要抓取的是悅音臺mv的排行榜，這個排行榜是實時更新的，如果要求不停地抓取，這將有可能導致悅音臺官方采用反爬蟲的技術將ip給封掉。所以這裏要應用一些反爬蟲相關知識。目標網址：http://vcha

scala中隱式轉換之隱式轉換調用類中本不存在的方法

esc rip args root imp 轉換存在 val 轉換成 /** * Created by root * Description : 隱式轉換調用類中本不存在的方法 */ class Person(name : String){ def g

反爬蟲中chrome無頭瀏覽器的幾種檢測與繞過方式

chrome無頭瀏覽器的幾種檢測方式本文測試使用的chrome版本為 Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/

萬惡之源：C語言中的隱式函數聲明

article ror 簡單的 .text parent ble spl return 影響 1 什麽是C語言的隱式函數聲明在C語言中，函數在調用前不一定非要聲明。如果沒有聲明，那麽編譯器會自己主動依照一種隱式聲明的規則，為調用函數的C代碼產生匯編代

爬蟲——爬蟲中使用正則表達式

txt文件點擊頁碼 range safari 頁面 gen odin ace 下面我們嘗試爬取內涵段子網站：http://www.neihan8.com/article/list_5_1.html 打開之後，當你進行翻頁的時候，不能註意到，url地址的變化：

正則表達式，字符串中需要兩個反斜杠“\d”

pattern blog text this 輸出 create 直接 out 兩個這個正則表達式為什麽會有兩個反斜杠？ "^.*?\\.(jpg|png|bmp|gif)$"上面這個正則表達式為什麽有兩個反斜杠呢？反斜杠點\.就能表示點.了，為什麽還要在\.前面多加一個

（三）使用Intent在活動中穿梭：顯式和隱式Intent

new findview public img 使用匹配 ted listener style 一、顯式Intent @Override protected void onCreate(Bundle savedInstanceState) {

爬取豆瓣電影儲存到數據庫MONGDB中以及反反爬蟲

ica p s latest tel mpat side nload self. pro 1.代碼如下： doubanmoive.py # -*- coding: utf-8 -*- import scrapy from douban.items import Douba

Scala 中的隱式轉換和隱式參數

定義定義函數 scala 行為 hub 隱式實現發現 com 隱式定義是指編譯器為了修正類型錯誤而允許插入到程序中的定義。舉例：正常情況下顯然會報錯，因為 String 類並沒有實現 / 這個方法，我們無法去決定 String 類的行為，這個時候就可以用上 im

SQL Server 2005/2008/2012中應用分布式分區視圖

lag tails soft 9.png .aspx 並且例如 () 根據　　自2000版本起，SQL Server企業版中引入分布式分區視圖，允許你為分布在不同的SQL 實例的兩個或多個水平分區表創建視圖。　　簡要步驟如下：根據Check約束中定義的一組值把大表分

scala中隱式轉換之隱式類

des object 同名生成 ase end app scala getname /** * Created by root * Description :隱式類： * 1.其所帶的構造參數有且只能有一個；並且構造器的參數是轉換之前的對象 * 2.隱式

SQL SERVER中隱式轉換的一些細節淺析

開發 tle ima 我們 rom spa 都是 date 分享原文:SQL SERVER中隱式轉換的一些細節淺析其實這是一篇沒有技術含量的文章，精通SQL優化的請繞道。這個緣起於在優化一個SQL過程中，同事問了我一個問題，為什麽SQL中存在隱式轉換，但是執行計劃沒有變？

c++中賦值運算符中的隱式轉換

字符串 {} new () 再看 null del delete ret 先上代碼： #include<iostream> #include<string> using namespace std; class MyStr { private:

爬蟲前提——正則表達式語法以及在Python中的使用

通過轉義字符之間表達斜杠轉移可能對象也會正則表達式是用來處理字符串的強大工具，他並不是某種編程雲。正則表達式擁有獨立的承受力引擎，不管什麽編程語言，正則表達式的語法都是一樣的。正則表達式的匹配過程 1.一次拿出表達式和文本中的字符比較。 2.如果每

C++ 語言中的重載、內聯、缺省參數、隱式轉換等機制展現了很多優點

str 指針 div sin code console etc 聲明隱患 C++ 語言中的重載、內聯、缺省參數、隱式轉換等機制展現了很多優點，但是這些優點的背後都隱藏著一些隱患。正如人們的飲食，少食和暴食都不可取，應當恰到好處。我們要辨證地看待 C++的新機制，應該恰

OpenCV中operator的隱式類型轉換

c++構造函數 ons enc static 對象類型構造函數 int truct log c++ operator操作符的兩種用法重載和隱式類型轉換今天學習OpenCV源碼的時候碰到這種寫法： template<typename _Tp> oper

java中jsp的九大隱式對象及web四大域

會銷時間同時調用宋體 clas 開始類加載相對路徑 JSP運行原理和九大隱式對象每個JSP 頁面在第一次被訪問時，WEB容器都會把請求交給JSP引擎（即一個Java程序）去處理。JSP引擎先將JSP翻譯成一個_jspServlet(實質上也是一個servlet

Vuejs使用scoped style為v-html中標籤新增CSS樣式

本文最新版本及更多技術文章請訪問我的個人技術部落格： http://blog.sbot.io 謝謝大家支援！在Vue元件中，我們可以使用<style scoped>標籤來新增針對該元件的CSS樣式。 <template>

javascript中神奇的隱式轉換

最常見的==和!=造成的隱式轉換，網上已經有很多人總結了，總結起來就一張圖： Object → String → Number ↑ Boolean 不同型別之間做==或！=運算，會按箭頭方向轉換直到型別相