58同城html字型反爬

阿新 • • 發佈：2020-11-28

一、獲取html和字型庫

三步驟：獲取字型檔，解析字型檔，替換字型檔符號

知道原理後非常簡單，需要注意每次生成的字型庫順序是不一樣的

import requests
import re
from fontTools.ttLib import TTFont
from lxml import etree
import json
import base64


def get_html():
    headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36 
"
    }
    res = requests.get("https://sh.58.com/chuzu/", headers=headers)
    html = res.text
    print(html)
    # 正則匹配到字型庫base64字串
    res = re.findall("data:application/font-ttf;charset=utf-8;base64,(.*?)'\) format", html)
    base64_str = res[0]
    res = base64.b64decode(base64_str)
    # 儲存為ttf格式檔案 

    file = open('58.ttf', 'wb')
    file.write(res)
    file.close()
    # 讀取ttf檔案儲存為xml檔案
    font = TTFont('58.ttf')
    font.saveXML('58.xml')
    return html

二、解析字型庫

def readXML():
    glyph_dict = {'glyph00001': '0', 'glyph00002': '1', 'glyph00003': '2',
                  'glyph00004': '3', 'glyph00005': '4', ' 
glyph00006': '5',
                  'glyph00007': '6', 'glyph00008': '7', 'glyph00009': '8',
                  'glyph00010': '9'}
    parser = etree.XMLParser(load_dtd=True)  # 首先根據dtd得到一個parser(注意dtd檔案要放在和xml檔案相同的目錄)
    tree = etree.parse("./58.xml", parser)  # 用上面得到的parser將xml解析為樹結構
    cmap = tree.xpath("//cmap//map")
    code_dict = {}
    for m in cmap:
        values = m.items()
        code_dict[values[0][1]] = glyph_dict.get(values[1][1])
    code_dict = json.loads(json.dumps(code_dict).replace("0x", "&#x").replace('":', ';":'))
    return code_dict

使用百度字型檔編輯器檢視字型庫：http://fontstore.baidu.com/static/editor/

三、替換html中的字型符號

def replace_secret_code(raw_string, rep_string, rep_dict):
    """替換加密字型"""
    return raw_string.replace(rep_string, rep_dict[rep_string])

def final_run():
    html=get_html()
    code_dict = readXML()
    new_html = None
    for k in code_dict.keys():
        if not new_html:
            new_html = replace_secret_code(html, k, code_dict)
        else:
            new_html = replace_secret_code(new_html, k, code_dict)
    print(new_html)

58同城html字型反爬

一、獲取html和字型庫三步驟：獲取字型檔，解析字型檔，替換字型檔符號知道原理後非常簡單，需要注意每次生成的字型庫順序是不一樣的

Python爬蟲——基於xpath爬取58同城房源資訊！

1、需求獲取58同城上所有房源的標題資訊https://bj.58.com/ershoufang/ 2、分析使用抓包工具進行分析

html字型_鬥魚關注人數爬取字型反爬的攻與防

技術標籤：html字型html字型程式碼轉載自：https://cjting.me/2020/07/01/douyu-crawler-and-font-anti-crawling/

字型反爬個人心得

這裡拿四個網站舉例吧，應該涵蓋了目前字型加密的80%了吧，還有什麼網站也可以留言我後面看

記一次css字型反爬

前段時間在看css反爬的時候，發現很多網站都做了css反爬，比如，設定字型反爬的（58同城租房版塊，實習僧招聘https://www.shixiseng.com/等）設定雪碧圖反爬的（自如租房http://gz.ziroom.com/）。

Python3 爬蟲-自定義字型反爬

百度字型編輯器：http://fontstore.baidu.com/static/editor/index.html 使用一種自定義的字型格式，新建ttf檔案，通過https://cloudconvert.com/ttf-to-svg網站把ttf檔案轉換為svg檔案，然後把svg檔案上傳http://

58同城前端筆試

一、填空題 1.號碼段為131到139的11位手機號碼正則校驗： /^13[1-9][0-9]{8}$/ 注：史上最全常用正則表示式大全

58同城筆試（09-14）

1 求疫情聚集區域的個數其實就是求連續的1的區域個數，簡單DFS。 int mapp[110][110];

【應屆生】58同城一二面面試過程

15日下午3.30面的一面 16日下午3.30面的二面一面： 1、自我介紹 2、秒殺系統的實現流程 3、為什麼用redis？ 4、redisson的底層實現？宕機瞭解鎖怎麼辦？ 5、redis的持久化機制 6、redis快取雪崩、快取穿

字型反爬之博X網實戰轉載：https://mp.weixin.qq.com/s/Z9yaib8i7Vf4rpYT690JQg

今天的目標網站是某彩票網站博X網。其主要的反爬技術為字型反爬，話不多說，我們直接開始！

字型反爬

總體思路破解字型反爬：　　1. 獲取字型檔案，　　2.Unicode解碼字型檔案，儲存為ttf檔案，

閒魚、58 同城等 12 家平臺被約談：涉售假、為色情交易引流

1月28日訊息從江蘇省消保委獲悉，今日上午，江蘇省消保委結合二手交易平臺消費調查，對涉及的 12 家二手交易平臺開展線上集體、公開約談。

起點中文網字型反爬注意事項

技術標籤：xpathpython爬蟲請首先閱讀： Code皮皮蝦 Python爬蟲進階之起點中文網字型反扒保姆級教程！！！ https://blog.csdn.net/llllllkkkkkooooo/article/details/108430930?ops_request_misc=%25257B%25252