Python爬蟲進階必備 | 加密分析

阿新 • • 發佈：2020-11-18

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

以下文章來源於騰訊雲作者：鹹魚學Python

( 想要學習Python？Python學習交流群：1039649593，滿足你的需求，資料都已經上傳群檔案流，可以自行下載！還有海量最新2020python學習資料。 )

這次來分析某個小說網站。

分析請求

先來看看頁面的請求【圖1-1】

圖1-1

經過檢視請求，並沒有請求的加密引數，但是響應的內容卻不正常，許多文字在響應中都變成了 span 標籤【圖1-2】

圖1-2

這樣的反爬蟲措施，如何分析？

定位加密

既然這裡替換的內容都是 span 那就從它開始入手吧。

可以看到應該顯示在正文的內容顯示在 CSS 的 content 中【圖2-1】。

圖2-1

這個是什麼操作？容我百度一下。

CSS中，::before 建立一個偽元素，其將成為匹配選中的元素的第一個子元素。常通過 content 屬性來為一個元素新增修飾性的內容。此元素預設為行內元素。

這裡附帶一個語法示例【圖2-2】，加深理解：

圖2-2

現在通過上面的例項描述，我們大致清楚原來它是一種 CSS 的隱式寫法。

一般 CSS 樣式我們可以通過點選右上角的連結跳轉到相應的檔案位置，但是這裡是無法跳轉的【圖2-3】

圖2-3

我們照著之前的思路，搜尋一波看看能不能找到一些蛛絲馬跡。

先試試搜尋類名【圖2-4】，找到的是請求頁面的響應內容，並沒有找到有用的資訊。

圖2-4

繼續搜尋::before，這次找到的同樣是請求頁面的響應內容但是::before在檔案的位置值得我們開啟看看。【圖2-5】

圖2-5

點開檔案再次搜尋，在這裡就定位到了疑似加密的地方【圖2-6】，對！只是疑似加密。

圖2-6

你不能因為程式碼長得醜、難理解就懷疑它是加密。

其實這裡也可以全域性搜尋.context_kw可以找到操作 DOM 的程式碼，可以找到操作 DOM 的加密位置，搜尋方法大同小異。

這裡就不細說了，我們只要找到加密邏輯的整體位置就行，不妨礙我們分析。

ps : 怕自己找錯可以多試幾次，相關檔案都開啟看看。

分析與改寫

既然找到一個疑似加密的位置，我們肯定是要分析一波看看是不是我們要找的。

通過大概的梳理，可以看到整個 JS 分為兩個部分，第一部分 JS 是CryptoJS的加解密的內容，第二部分是經過混淆的內容，根據部分 JS 可以猜測第二部分的 JS 操作了 DOM ，完成了 CSS 相關的解密。【圖3-1】

關於第一部分的CryptoJS沒啥好改的，照著用就好了。

第二部分值得研究一下，因為是混淆過的內容，照著還原回原來的程式碼意義不大且費時費力，需要做的就是不停除錯你看不明白的程式碼，爭取能明白這個程式碼的意思，能理解的程式碼越多，去改寫越簡單。

圖3-1

簡單說下程式碼的邏輯：

先取出 _0xa12e這個數組裡面一個加密過的元素，取出後用 AES解密
圖3-2

在 node 中執行輸出的結果是這樣的【圖3-3】

圖3-3

很明顯 node 環境下輸出的結果不是我們要的，而且字元數也少了兩個，同一份程式碼環境不同，可以大致猜到可能是程式碼裡做了一些對環境屬性的判斷。

這個時候理解程式碼的好處就來了，可以很快定位到下面這行程式碼【圖3-4】：

圖3-4

這裡檢測的是當前的 URL ，在瀏覽器中這個判斷條件是不成立的【圖3-5】，所以不執行判斷中程式碼。

圖3-5

到了 node 環境下是沒有瀏覽器的window屬性的，所以執行這句會出現異常，執行的是異常處理中的程式碼，所以我們直接把這段if程式碼註釋掉。

繼續向下，找找還有沒有相關的程式碼，只要是判斷瀏覽器相關屬性的都需要注意一下。

很快看到【圖3-6】這一行的程式碼也進行了相關的判斷。

圖3-6

在瀏覽器環境下程式碼的結果是這樣的【圖3-7】

圖3-7

但是在 node 環境下是這樣的，計算結果也相應的出現了錯誤【圖3-8】

圖3-8

所以這裡需要做相應的修改，讓結果能夠計算正確。

例如：

_0x1532b6[_0xea12('0x26')](_0x490c80, 0x3 * +!('object' === _0xea12('0x27')))

這樣 node 環境下的計算結果就正常了。

將經過處理後的 JS 運用到 Python 爬蟲中，就可以看到正確的內容了【圖3-9】

圖3-9

總結

這個網站的加密不是很難，不過加密的方法很典型，前段時間有不少讀者朋友在群裡討論研究，非常值得學習一下。

不過既然是小說網站，這裡也涉及到相關的版權問題，所以希望大家不要搞事，以學習的態度和目的閱讀本文。

Peace~

Python爬蟲進階必備 | 加密分析

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python 爬蟲進階必備 | 某外賣優惠平臺內容加密引數分析

今日網站 aHR0cHMlM0EvL3N0YXRpYy53YWl0d2FpdHBheS5jb20vd2ViL3NkX3NlL2luZGV4Lmh0bWwlMjMvc2VhcmNoL3NlYXJjaGZvciUzRHZlbmRvciUyNmtleXdvcmQlM0QlMjVFNyUyNUIxJTI1QjMlMjVFNyUyNUIyJTI1ODk=

Python爬蟲進階必備 | MD5 hash 案例解析講解

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python 爬蟲進階必備

關於新聞平臺請求頭加密引數邏輯分析抓包與加密定位先來看看加密的請求

教你怎麼使用Python爬蟲進階--X咕視訊密碼與指紋加密分析！

先來看看今天的受害者： aHR0cDovL3d3dy5taWd1dmlkZW8uY29tL21ncy93ZWJzaXRlL3ByZC9pbmRleC5odG1s

python爬蟲進階 | JS逆向某驗滑動加密分析（第二篇）

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

python爬蟲進階 | JS逆向某驗滑動加密分析（第一篇）

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲進階之爬取某視訊並下載的實現

這幾天在家閒得無聊，意外的挖掘到了一個資源網站（你懂得），但是網速慢廣告多下載不了種種原因讓我突然萌生了爬蟲的想法。

Python爬蟲進階之爬取某視訊並下載，沒有廣告的視訊看起來不爽嗎？

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲進階：爬取梨視訊網站Top排行榜視訊資料

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

python程式設計進階之異常處理用法例項分析

本文例項講述了python異常處理用法。分享給大家供大家參考，具體如下：之前用Java的時候，在容易出錯的地方我們經常使用try…catch或者try…catch…finally來捕捉和顯示異常，在python中很高興地發現它也有這樣的機

python程式設計進階之類和物件用法例項分析

本文例項講述了python類和物件用法。分享給大家供大家參考，具體如下：前面我們都是用python面向過程程式設計，現在來用python建立類和物件，面向物件程式設計。類和物件是面向物件程式設計的兩個主要方面。類建立一

Python大佬 | 菜鳥進階必備的九大技能

Python是一種很棒的語言，語法簡單，無需在程式碼中搜索分號。對於初學者來說，Python是入門最簡單的語言之一。Python有大量的庫支援，你還可以安裝其他庫來增加自己的程式設計經驗。

Python基礎進階之海量表情包多執行緒爬蟲

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python基礎進階之海量表情包多執行緒爬蟲功能的實現

一、前言在我們日常聊天的過程中會使用大量的表情包，那麼如何去獲取表情包資源呢?今天老師帶領大家使用python中的爬蟲去一鍵下載海量表情包資源

爬蟲與Python：（四）爬蟲進階一之資料抓取——2.Python模擬Ajax

如何用用Python模擬Ajax請求，我們仍然以飛常準大資料為例（https://data.variflight.com/analytics/CodeQuery），通過查詢北京機場的三個字母碼“PEK”來請求獲取它的資料，把北京機場的資訊提取出來。

爬蟲與Python：（四）爬蟲進階擴充套件之Pandas——1.什麼是Pandas

什麼是Pandas Pandas 是 Python 語言的一個擴充套件程式庫，用於資料分析。 Pandas 是一個開放原始碼、BSD 許可的庫，提供高效能、易於使用的資料結構和資料分析工具。

爬蟲與Python：（四）爬蟲進階擴充套件之Pandas——3.資料結構Series

1. 定義 Pandas Series 類似表格中的一個列（column），類似於一維陣列，可以儲存任何資料型別。

爬蟲與Python：（四）爬蟲進階擴充套件之Pandas——4.資料結構DataFrame

1. 定義 DataFrame 是一個表格型的資料結構，它含有一組有序的列，每列可以是不同的值型別（數值、字串、布林型值）。DataFrame 既有行索引也有列索引，它可以被看做由 Series 組成的字典（共同用一個索引）。

爬蟲與Python：（四）爬蟲進階擴充套件之Pandas——5.CSV檔案

1. 定義 CSV（Comma-Separated Values，逗號分隔值，有時也稱為字元分隔值，因為分隔字元也可以不是逗號），其檔案以純文字形式儲存表格資料（數字和文字）。

Python爬蟲進階必備 | 加密分析

分析請求

定位加密

分析與改寫

總結

相關推薦