爬蟲之字型反爬（一）起點網

阿新 • • 發佈：2018-12-06

今天為大家帶來的是爬蟲之反爬措施中字型反爬的一個案例，起點網。具體來看下面的分析與程式碼。

首先參考的網站：https://www.qidian.com/all?&page=1

從網站中可以觀察到，它的反爬是這樣的：

再從網頁原始碼中觀察，發現又是這樣的：

在觀察網頁後發現重複出現了一個較為特殊的標籤 <style>，點開之後如下圖所示：

發現原來這就是傳說中的字型反爬！！ttf結尾的就是相應的字型檔案。

好了，那麼接下來就是觀察字型檔案，檢視具體的數字是怎樣的對應關係。

檢視字型檔案可下載fontcreater（自行百度。。），字型檔案中顯示如下：

哇。。so easy，這不就是英文字母對應其數字嗎，所以先自定義一個字典（單詞與數字的對應關係），用來對映該網站的其他字型庫。

接下來，通過python庫fonttools工具包，找出字型檔案中包含的對映關係，程式碼如下：
from fontTools.ttLib import TTFont
from io import BytesIO

url_ziti = '字型檔案地址'.
ziti = requests.get(url_ziti)
# 下載ttf字型檔案，然後通過BytesIO轉化為記憶體檔案，使用TTFont處理
font = TTFont(BytesIO(ziti.content))
cmap = font.getBestCmap()
cmap 
對映關係如下圖所示：

可以發現，上圖中字典的鍵值與網頁原始碼中的值是一致的，於是就可以通過相互對映的關係，找出這些原始碼最終代表的是那幾個數字，我把兩張圖放在一起，方便大家理解：

可以看到100156對應數字1，100158對應數字6，依此類推，最後得到的數字是160.87，發現與網頁中顯示的一致。

這個案例到這就結束啦，總結一下：這裡的反爬呢就是相互之間的對映關係，關鍵點在於尋找發現這種關係，主要通過兩個工具，fontcreater和fonttools包，其次只需要映射出網頁原始碼與真實數字即可。

爬蟲之字型反爬（一）起點網

今天為大家帶來的是爬蟲之反爬措施中字型反爬的一個案例，起點網。具體來看下面的分析與程式碼。首先參考的網站：https://www.qidian.com/all?&page=1 從網站中可以觀察到，它的反爬是這樣的：再從網頁原始碼中觀察，發現又是這樣的：

爬蟲之字型反爬（三）汽車之家

今天為大家帶來的是字型反爬的另一個案例，汽車之家。與之前不同的是，這裡是對漢字的處理。具體來看下面的分析與程式碼。首先參考的網站：https://club.autohome.com.cn/bbs/thread/1f05b4da4448439b/76044817-1.html#%23%23

python框架之 Tornado 學習筆記（一）

tornado pythontornado 一個簡單的服務器的例子：首先，我們需要安裝 tornado ，安裝比較簡單： pip install tornado 測試安裝是否成功，可以打開python 終端，輸入： import tornado.https

python大法之二-一些基礎（一）

計算機編程 python 獨立博客 hello 解釋器個人獨立博客出處：http://www.xbman.cn/出處：http://www.xbman.cn/article/3Python是一種解釋性計算機編程語言。采用縮進式語法，寫起來的感覺有點像排了版的shell，這裏要註意寫pyt

Linux之Ubuntu環境配置（一）

sogou home ade -- linux下安裝 linux64 x64 inux Linux下的搜狗輸入法安裝： 1.搜狗官網下載Linux64bit版本文件，默認在/home/username/Downloads目錄下。 2.cd /home/username/D

數據結構之二叉樹（一）

reorder system style 序列 urn creat 編寫程序 space ont 設計和編寫程序，按照輸入的遍歷要求（即先序、中序和後序）完成對二叉樹的遍歷，並輸出相應遍歷條件下的樹結點序列。 1 //遞歸實現 2 #include

vuex實踐之路——筆記本應用（一）

time 中大 -- this 隔離思想一個表環境搭建一定的首先使用vue-cli把環境搭建好。介紹一下應用的界面。 App.vue根組件，就是整個應用的最外層 Toolbar.vue：最左邊紅色的區域，包括三個按鈕，添加、收藏、刪除。 NoteList.vu

構建之法--探索篇（一）

構建編寫裏的 set namespace 對象之前定義時也問題一：在Cust中無法找到telephone的get方法，這裏是因為我之前沒有telephone的成員變量，加上之後有沒有寫telephone的get方法；解決方案：只要在Cust這個類裏面，加上

solr搜索之入門及原理（一）

solr solr入門 1 solr簡介solr官方文檔：http://wiki.apache.org/solr/DataImportHandler 下載地址：http://www.apache.org/dyn/closer.cgi/lucene/solr/2 solr入門我們使

C#.Net 設計模式學習筆記之創建型（一）

應用種類單件 src nag abstract 子類指定相關 1、抽象工廠（Abstract Factory）模式常規的對象創建方法： //創建一個Road對象 Road road =new Road(); new 的問題：實現依賴，不能應對“具

.NET中使用Redis之ServiceStack.Redis學習（一）安裝與簡單的運行

arraylist write client cli ring blog 控制臺創建 spa 1.下載ServiceStack.Redis PM> Install-Package ServiceStack.Redis 2.vs中創建一個控制臺程序 class Pro

構建之法學習回顧（一）

第三章多人合作認識案例回歸實用效能可執行代碼規範在學習完構建之法一到四章之後，作為軟件工程專業的一名在校生，有了一些全新的認識，作者把軟件工程開發的方法和案例講的清晰有趣而又實用，我們的思維水平也升級了不少。在

構建之法-----閱讀問題（一）

閱讀原因開發流程閱讀內容簡單的天都不能作者敏捷開發閱讀內容：第六章敏捷開發流程在敏捷開發流程中，作者提出了一個觀點-----每日立會，在聽老師講的過程中，覺得這種模式很好，在每日立會中，定義好任務究竟是什麽？完成這個任務的時間是什麽？能夠及時發現自己

Linux基礎之常見命令用法（一）

linux基礎命令入門(一)一、Linux文件目錄結構在講述之前，先簡短的說說Windows文件結構，打開‘計算機’，看到的一個個的驅動器(盤符，例C盤、D盤等)，點開其中任意盤符，看到的是一個個文件或文件夾，繼續打開...,每個盤都有自己的根目錄。若是把其打開過程畫下來，便可得到如下多棵倒樹並列的圖

初識Hibernate之關聯映射（一）

ber 初識 album nat amp uid 關聯映射映射 pic http://pic.cnhubei.com/space.php?uid=1774&do=album&id=1361989http://pic.cnhubei.com/space.ph

C#可擴展編程之MEF學習筆記（一）：MEF簡介及簡單的Demo（轉）

com ring this exec hosting code .cn 引用展開在文章開始之前，首先簡單介紹一下什麽是MEF，MEF,全稱Managed Extensibility Framework（托管可擴展框架）。單從名字我們不難發現：MEF是專門致力於解決擴展性

Scrapy分布式爬蟲打造搜索引擎（一）,開發環境安裝

req per 分布式 apt fff mkdir bootstra ble douban Technorati 標簽: 分布式爬蟲 Linux環境下安裝mysqlsudo apt-get install mysqlserver 然後可以查看是否啟動 ps aux | gr

全棧開發之HTML快速入門（一）

ack enter 提示其他 red tle 顯示圖片 val password 一、HTML 是什麽？ HTML 指的是超文本標記語言 (Hyper Text Markup Language) HTML 不是一種編程語言，而是一種標記語言 (markup lan

大數據入門第十七天——storm上遊數據源之kafka詳解（一）入門

不同這也接受 blog 存儲發送 records ant post 一、概述　　1.kafka是什麽　　　　根據標題可以有個概念：kafka是storm的上遊數據源之一，也是一對經典的組合，就像郭德綱和於謙　　　　根據官網：http://kafka.apa

網絡駭客入門之網絡編程（一）：網絡應知應會

網絡網絡駭客入門之網絡編程（一）：網絡應知應會一、計算機網絡在設計之初就決定了它結構簡單，傳輸可靠的特點，除此之外，它還能連接不同種類的計算機在網絡上，各個節點同等重要且必須有冗余路由二、網絡在理論上被分為七層，從下到上，物理層，數據鏈路層，網絡層，傳輸層，會話層，表示層，應用層在實際的應用上分為四層，即：鏈

爬蟲之字型反爬（一）起點網

相關推薦