python 爬蟲之字型(@font-face)防爬

阿新 • • 發佈：2018-11-21

python 爬蟲字型(@font-face)防爬

字型防爬就是該網站在原始碼上的字型不是正常字型編碼, 可能是自定義的一種字型, 然後通過對應關係在頁面上進行展示, 這就是所謂的字型防爬, 但是他們想要在頁面上進行展示的話還是需要匯入字型包的, 所以咱們只需要把字型包下載下來進行對應關係轉換就可以獲得正確的內容了

一主要是找到該網站匯入的字型包的路徑

這就是一般網站的字型路徑, 後面的那個url在新頁面開啟就可以自動下載字型在這裡插入圖片描述
如果直接在原始碼找不見的話, 那就開啟開發者除錯工具, 在network裡面搜尋font 字型, 找到字型的url地址, 進行下載

二就是解析字型了

需要下載  fontTools 包, 然後下面直接上程式碼
from fontTools.ttLib import TTFont
#解析字型檔案，獲取字型對映關係
def parse_font():
    font1 = TTFont('/Users/admin/Downloads/b.ttf')
    keys, values = [], []
    for k, v in font1.getBestCmap().items():
        if v.startswith('uni'):
            keys.append(eval("u'\\u{:x}".format(k) + "'"))
            values.append(chr(int(v[3:], 16)))
        else:
            keys.append("&#x{:x}".format(k))
            values.append(v)
    print(keys, values)
    return dict(zip(keys, values))
這樣就可以獲取到 字型和編碼的對應關係, 然後直接把抓取的亂碼在對應關係裡面進行轉換就可以了

需要注意的是, 可能有的網站防爬可能會在編碼上再給你加點難度, 比如數字的話: 你編碼解出來是 5, 但實際是3, 遇到這種不要慌, 很有可能就是減法而已, 自己多測幾次知道公式就好了

###參考連結
https://blog.csdn.net/weixin_40214188/article/details/82596478

python 爬蟲之字型(@font-face)防爬

python 爬蟲字型(@font-face)防爬

一主要是找到該網站匯入的字型包的路徑

二就是解析字型了

python 爬蟲之字型(@font-face)防爬

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

Python爬蟲之爬取煎蛋網妹子圖

Python爬蟲之利用正則表達式爬取內涵吧

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

Python爬蟲之使用Fiddler+Postman+Python的requests模塊爬取各國國旗

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

python:爬蟲之Post請求以及動態Ajax資料的爬取（3）

爬蟲之字型反爬（一）起點網

Python爬蟲之爬取各大幣交易網站公告——靜態網站.md

python爬蟲之雲片網國內簡訊介面爬取

python學習（7）：python爬蟲之爬取動態載入的圖片，以百度圖片為例

Python爬蟲之爬取動態頁面資料

爬蟲之字型反爬（三）汽車之家

Python爬蟲之爬取知乎帖子並儲存到mysql（以及遇到問題和解決方法）

Python爬蟲之爬取瓜子二手車資訊- requests方法

Python爬蟲之爬取內涵吧段子（urllib.request）

python爬蟲之反爬蟲情況下的煎蛋網圖片爬取初步探索

Python爬蟲之如何爬取抖音小姐姐的視訊

[原創]python爬蟲之BeautifulSoup,爬取網頁上所有圖片標題並存儲到本地文件

python 爬蟲之字型(@font-face)防爬

python 爬蟲 字型(@font-face)防爬

一 主要是找到該網站匯入的字型包的路徑

二 就是解析字型了

相關推薦

python 爬蟲字型(@font-face)防爬

一主要是找到該網站匯入的字型包的路徑

二就是解析字型了