python爬蟲 - js逆向之woff字型反爬破解

阿新 • • 發佈：2021-11-19

本篇博文的主題就是處理字型反爬的，其實這種網上已經很多了，那為什麼我還要寫呢？因為無聊啊，最近是真沒啥事，並且我看了下，還是有點難度的，然後這個字型反爬系列會出兩到三篇博文，針對市面上主流的字型反爬，一一講清楚不多bb，先看目標站 aHR0cDo{防查詢，刪除我，包括花括號}vL3d3dy5kaWFucGluZy5jb20vbW{防查詢，刪除我，包括花括號}VtYmVyLzc5Mzk5NTky{防查詢，刪除我，包括花括號}L3Jldmlld3M= 分析

前言

本篇博文的主題就是處理字型反爬的，其實這種網上已經很多了，那為什麼我還要寫呢？因為無聊啊，最近是真沒啥事，並且我看了下，還是有點難度的，然後這個字型反爬系列會出兩到三篇博文，針對市面上主流的字型反爬，一一講清楚

不多bb，先看目標站

aHR0cDo{防查詢，刪除我，包括花括號}vL3d3dy5kaWFucGluZy5jb20vbW{防查詢，刪除我，包括花括號}VtYmVyLzc5Mzk5NTky{防查詢，刪除我，包括花括號}L3Jldmlld3M=

分析

開啟網站，如下：

發現，地址在原始碼裡不顯示

再看下面的文字，網頁原始碼裡面也沒有正常顯示

這種就很秀了啊，對於沒搞過字型反爬的朋友來說，估計就迷糊了，不用怕，跟著我的思路來

先看位址列，點下那個標籤，看右邊的css樣式（對這個不理解的，看看html前端基礎吧，最多一週就懂了），或者看看我的之前的博文，https://www.cnblogs.com/Eeyhan/category/1339041.html

在看下面的內容：

這種啥意思呢，首先哈，看到這種原始碼裡面看不到的，那一定是在css樣式裡，用的@font-face自定義的字型，所以，上面圈出來的兩個css就很重要了，點進去看看，點這個

進去之後，格式化一下，然後就看到如下：

果然有個@font-face，就看這個後面的url引入了啥樣式的字型檔案，往後面拉下滾動條，果然看到一個woff的字型檔案

補充一下，字型檔案格式有哪幾種呢？常見的有woff，svg，ttf，其他的就不細說了，好的，先把這個字型下載下來，複製連結瀏覽器開啟直接下載，不用補齊http協議直接下載：

這個字型先放著，目前這個是地址相關的，再看內容的字型檔案，同樣的方式點選那個css，進入裡面把連結複製出來下載：

因為我之前分析的時候已經下載過了，所以，檔名會有個（1）。

好的，這兩個字型檔案，梳理一下，f76的是地址的，924的是內容的，這種檔案怎麼開啟呢？用這個地址：點我，（百度的線上字型編輯器網址已經打不開了，另外找的一個）線上開啟：

當然你也可以用fontcreator軟體開啟：

果然哈，這裡面就是定義好的字型了，而可以看到，這種有編碼，有實際字型的，只要找到對映關係，就可以把我們要的內容給映射出來了，那麼，我們怎麼去找對映關係呢？

先看看規律哈，提前說下，這裡直接是中文字，而不是網上有些老哥針對字型反爬講解的數字，然後找到對映關係之後減2哈，所以還是要自己去找那套對映邏輯

怎麼找？直接用一個字來看吧，就找這個【廣】字

先看網頁原始碼裡這個廣是啥編碼，好的，&#xe2c9，先放一放

看這邊woff字型裡這個廣是啥

線上網站看到的，還好，第一頁就有，是unie2c9

unie2c9跟&#xe2c9，好像有點像，先不急，看下，fontCreator軟體裡是啥：

看著有點不一樣哈，這不重要，接下來，我們用python的庫看看，python裡有一個大佬寫好的字型對映檔案庫，fontTools（自己用pip安裝，不多介紹了）

列印結果如下，然後它生成了一個font的xml檔案，開啟看看：

裡面有兩個關鍵的節點就是GlyphOrder和cmap，而這兩個，剛才的程式碼裡已經打印出來了，結果：

那行，我們找下這個【廣】在哪，搜從線上字型檔案編輯網裡拿到的unie2c9，發現有兩個：

哪個才是呢？再搜下，字型檔案拿到的glyph86，發現沒有

但是，目前感覺有點聯絡，&#xe2c9 --- unie2c9 --- 86

這種是啥呀，就不多說了，unie2c9前面的uni就是unicode編碼的意思，姑且認定為【&#xe2c9 = unie2c9】，那86啥，怎麼映射出【廣】字的，大膽猜測，這個86就是索引位置，在那個woff檔案裡數一下，看是不是第86個，先看這個，一行是10個，然後第一行是沒有任何編碼的，所以第一行只有9個，

往下數，數到第8行倒數第四個，也就是87，但是第一行只有9個，那就是86了

哈哈哈，剛好對上，那現在就說得通了，那我們先拿到原始碼，然後去找對映關係，找到索引位置，再從索引位置裡找到真實的文字內容就行了。

但有個很繁瑣的，這些實際的文字內容，我們要一個一個的手寫對映關係（哭了），沒法啊，找好之後，寫成一個json，然後load吧

除錯

先把剛才開啟網頁原始碼，直接copy到本地儲存成html檔案測試吧，免得一改什麼就請求下，因為這個站的風控還挺強的

廢話不多說，直接處理儲存在本地的html，然後我只列印了地址資訊

感覺跟在原始碼裡看到的&#開頭的有點不一樣，好像給處理成了【\u】，先看看能不能處理吧：

複製一個['\ue2c9', '\uef20', '\ue801', '5', '\ued77', '\ue150', '42']，拿來處理下，

臥槽，這咋回事，打斷點一看，這個引數並不是我們預期的，

那多半就是那個被轉義成【\u】的問題了，那我們直接在讀取內容的時候，直接就替換一下：

執行下：

然後同樣的，拿第一個來處理：

完美，跟原網站的資料對上

接著再處理內容的，這個內容原理一樣，只是把woff檔案替換下即可

列印下內容的：

選第一個，然後執行：

對比原網站：

然後，有朋友要問了，那後面的emoji怎麼沒有搞出來，看看原始碼哈：

這個emoji，是個圖片資源，你要處理肯定是可以的，拼接一下就可以了

python實現

最後用python完整實現，就不說了，只提一句，那兩個字型檔案經過我的發現，是會不定期變的，所以你需要去請求原始碼，用正則匹配指定位置，然後請求css檔案，再去把woff檔案url匹配出來，單獨請求，下載下來，接著完成後續的工作即可

部分程式碼：

from fontTools.ttLib import TTFont
import re
import requests
from lxml import etree
import json


def parser_woff_font(font='4375cf76.woff', something=None):
    font = TTFont(font)
    glyph = font.getReverseGlyphMap()
    f = open('font_template.json', encoding='utf-8')
    font_template = json.load(f)
    f.close()
    new_str = ''
    for item in something:
        if not item:
            continue
        if item.endswith(';'):
            item = item.replace(';', '')
        if item in glyph:
            index = glyph.get(item)
            if index:
                real = font_template.get(str(index))
                if real:
                    new_str += real
        else:
            new_str += item
    print(12312312, new_str)
    return new_str


def get_real_data():
    f = open('content.html', encoding='utf-8')
    source_data = f.read()
    source_data = source_data.replace('&#x', 'uni')
    f.close()
    html = etree.HTML(source_data)
    data = html.xpath('//div[@class="txt J_rptlist"]')
    for item in data:
        temp_dict = dict()
        shop_name = item.xpath('./div[1]/h6//text()')
        shop_addr = item.xpath('.//div[@class="mode-tc addres"]/p//text()')
        shop_score = item.xpath('.//div[@class="mode-tc comm-rst"]/span/@class')
        shop_comment = item.xpath('.//div[@class="mode-tc comm-entry"]//text()')
        comment_photo_url = item.xpath('.//div[@class="mode-tc comm-photo"]/a/@href')
        comment_photo_url = ''.join(comment_photo_url) if comment_photo_url else ''
        create_time = item.xpath('.//div[@class="mode-tc info"]/span[1]/text()')
        create_time = ''.join(create_time) if create_time else ''
        if create_time:
            create_time = create_time.replace('發表於', '')
        temp_dict['shop_name'] = shop_name
        temp_dict['shop_addr'] = shop_addr
        temp_dict['shop_score'] = shop_score
        temp_dict['shop_comment'] = shop_comment
        temp_dict['comment_photo_url'] = comment_photo_url
        temp_dict['create_time'] = create_time
        print(123123, temp_dict['shop_comment'])


# get_real_data()




s = ['unif1af;', 'unif147;', 'uniecc0;', 'unie635;', 'unif083;', 'unie3c5;', 'unif802;', ' ', 'unie931;', 'uniea55;', 'unif534;', 'unied79;', 'unie1bd;', ' ', 'unie1e4;', 'unie7b0;', 'unie65d;', 'unif534;', 'unie3c5;', 'unie66f;', 'unif52d;', ' ', 'unif765;', 'unif49d;', 'unieb19;', 'unie2de;', 'unie66f;', '鬧', 'unie8ee;', 'unie3a4;', 'unif759;', ' ', 'unif195;', 'unif195;', 'unif195;', 'unif195;']

parser_woff_font('2f66e924.woff', s)

那個對映的json檔案，由於內容有點多，我找個放的地方，後續把下載地址貼出來

總結

你覺得難嗎？

python爬蟲 - js逆向之woff字型反爬破解

前言

分析

除錯

python實現

總結

python爬蟲 - js逆向之woff字型反爬破解

python爬蟲 - js逆向之svg字型反爬破解

python爬蟲 - js逆向之猿人學第十二題

python爬蟲 - js逆向之猿人學第十三題

python爬蟲 - js逆向之某網站逆向分析（上）-- 突破某網的debug檢測

python爬蟲 - js逆向之猿人學第十六題webpack簡版

python爬蟲 - js逆向之猿人學第十七題http2.0

python 簡單js逆向之網易有道翻譯

某車之家字型反爬最終版

爬蟲必看，每日JS逆向之愛奇藝密碼加密，今天你練了嗎？

python爬蟲---字型反爬

python爬蟲學習筆記之Beautifulsoup模組用法詳解

python爬蟲學習筆記之pyquery模組基本用法詳解

Python3 爬蟲-自定義字型反爬

這個爬蟲JS逆向加密任務，你還不來試試？逆向入門級，適合一定爬蟲基礎的人

Python爬蟲實驗報告之Big_Homework2_Douyu

Python爬蟲實驗報告之Big_Homework1_Lishipin

這個美團酒店爬蟲JS逆向解密，你不得不嘗

Python爬蟲：逆向分析酷我音樂請求引數

字型反爬之博X網實戰轉載：https://mp.weixin.qq.com/s/Z9yaib8i7Vf4rpYT690JQg

python爬蟲 - js逆向之woff字型反爬破解

前言

分析

除錯

python實現

總結

相關推薦