黑產用“未來武器”破解驗證碼，打碼小工都哭了

阿新 • • 發佈：2022-04-29

當我們正討論如何用AI推動產業升級、改變未來生活時，不法分子也在研究AI技術，並通過各種手段非法牟利。近日，騰訊守護者計劃安全團隊協助警方打掉市面上最大打碼平臺“快啊答題”，挖掘出一條從撞庫盜號、破解驗證碼到販賣公民資訊、實施網路詐騙的全鏈條黑產。而在識別驗證碼這一關鍵環節，黑產竟已用上AI人工智慧技術。該團伙運用AI技術訓練機器，極大提升了單位時間內識別驗證碼的數量，2017年一季度打碼量達到259億次，且識別驗證碼的精準度超過80%。藉此案件，我們也深入研究AI打碼平臺黑產領域，對其犯罪模式進行剖析。

打碼平臺：對抗驗證碼系統而生

對於“驗證碼”，大家並不陌生。在登入各網站、平臺、APP時，經常見到。常見的“驗證碼”有“字元式”、“字元+點選式”、“滑塊拼圖式”和難度逆天的“12306式”。

             字元式                                 字元+點選式

            滑塊拼圖式                             12306式

驗證碼（CAPTCHA ，Completely Automated Public Turing Test to Tell Computers and Humans Apart，全自動區分計算機和人類的圖靈測試），是區分計算機和人類的一種程式演算法，簡單解釋是一個答題的驗證。系統向請求發起方提問，能正確回答的即是人類，反之則為機器。從安全形度講，CAPTCHA經過不斷演化，已成為目前國內外各大網際網路公司用於對抗網路黑產惡意行為（如惡意登入）的驗證碼安全策略，即我們現在俗稱的驗證碼系統。

在網路黑產中，不法分子竊取網站資料庫後，需要確認帳號對應的密碼是否正確，將有價值的資料通過驗證的方式篩選出來，這一過程黑話叫“晒密”，意即撞庫。而“晒密”最核心的障礙就是網際網路公司設定的驗證碼安全體系。每天面對數以億計的“晒密”需求，黑產分子不可能人工逐個識別，而是需要提高“晒密”效率，批量識別。“打碼平臺”這一專業服務便應運而生。

“打碼平臺”會與“晒密”軟體作者合作：

1) 黑產團伙把盜取的帳號密碼資訊匯入到“晒密”軟體，“晒密”軟體模擬登入協議，向網際網路公司伺服器傳送登入請求。 2) 伺服器檢測到登入異常時，會下發驗證碼，進行安全策略攔截。 3) “晒密”軟體將收到的驗證碼圖片傳送給“打碼平臺”，請求將圖片轉化為字元。 4) 打碼平臺後臺破解驗證碼，將字元結果返回“晒密”軟體，完成“晒密”（撞庫）流程。 5) 這些“晒密”後得到的使用者資訊，則可能被騙子直接用於實施詐騙犯罪。

下面這張圖，可以看到“快啊答題”打碼平臺所涉及的從撞庫到晒密再到打碼的整個黑色產業鏈：

早期的打碼平臺，對驗證碼的識別基本是通過“人工+OCR降維識別圖片”完成。但是，網際網路公司的驗證碼安全策略升級後，包括出現像12306這樣識別難度高的驗證碼體系，“人工+OCR”方式的識別效率降低、成本升高，一段時期內，確實降低了黑產犯罪。

但是，黑產人員並不會因為一條路被堵死,就放棄犯罪，他們又想出了更前沿的手法來應對。目前市面上最大的 “快啊答題” 打碼平臺就是典型代表，他們運用目前最流行的人工智慧AI技術訓練機器，大大提高了識別驗證碼的精準度，也極大提升了犯罪嫌疑人在單位時間內識別驗證碼的數量。通過這個打碼平臺管理後臺的統計資訊顯示，2017年1-3月，其打碼量達到259億次，平臺累計打碼量超過1700億次。這套AI系統識別驗證碼成功率非常高，以下圖紅框標識處為例，當天的整體識別率會輸出成日誌檔案，通過隨機調取某日的日誌檔案，該日整體驗證碼識別率高達83.4%。

AI技術破解“晒密”低效難題

“快啊答題”打碼平臺基於主流AI深度學習Caffe框架，使用vgg16卷積核神經網路模型，可以直接輸入原始影象（避免了對影象的複雜前期預處理），並能通過深度的機器學習來獲得較高的驗證碼識別率。

（分散式AI驗證碼識別系統簡易流程介紹）

由於不同方式生成的驗證碼風格迥異，且經常變換，為了實現精準識別，提高準確度，“快啊答題”收集了大量不同風格的樣本，並開發了驗證碼接收與分發模組，輸入端對接打碼平臺，輸出端根據驗證碼型別輪詢選擇並推送到相應的驗證碼識別模型，驗證碼識別完成，返回驗證碼字串到打碼平臺，打碼平臺確認是否識別正確，並將結果反饋至該分散式AI驗證碼識別系統進行進一步優化。

（圖為識別平臺自身的管理介面）

1、生成方法

打碼平臺犯罪團伙通過以下步驟，迅速低成本地獲得海量驗證碼訓練資料：

（1）從網際網路公開渠道獲取字型樣本，輸出數字、字母、字母+數字、中文等不同型別驗證碼識別模型，獲得的公開字型庫，並且蒐集背景圖片，如桌布/風景類圖片。（2）通過工具將不同字型的驗證碼進行加工處理（加干擾、變形等）後，寫入到背景圖片中，生成帶標定的訓練樣本。

由於目標問題是不定長度的字元序列識別，生成的訓練樣本的字元個數也是不定長度的，可以是1-6個任意字元，最多支援6個標籤的識別。黑產人員用一系列的驗證碼生成工具，來生成不同風格的驗證碼圖片，如下圖：

（作者通過工具生成的訓練樣本示例）

（3）打碼平臺犯罪團伙基於收集到的超過10000個字型庫，通過網路採集和字型檔背景生成訓練樣本，針對驗證碼識別業務，積累超過5000萬的樣本庫，覆蓋常見驗證碼模型。由此訓練得到的模型具有非常強的適用性，即便新型的驗證碼變種，也可達到較高識別率。

2、多標籤訓練

“快啊答題”打碼平臺的AI系統，能將一張驗證碼圖片作為一個整體，將單字識別轉換成單圖多標籤、端到端的識別出驗證碼中的所有字元。

針對網路上主流驗證碼圖片一般不超過6個字元的特點，該AI系統設計6個標籤的分類，對於少於6個字元的驗證碼圖片，未含字元的標籤會判定為負樣本不予輸出。因此，最終的輸出結果只包含給定字元的有效標籤。也就是，原本的OCR識別只能簡單識別圖形上的文字，而在文字變化後識別率就大大降低。而使用Caffe框架，就可以對圖形內的區域性特徵進行分類提取。

“快啊答題”打碼平臺基於海量訓練樣本，建立了多標籤分類網路來訓練驗證碼的識別網路。漢字的網路訓練週期為1個月左右，而英文+數字的網路訓練週期則只需要1個星期。

另外，“快啊答題”打碼平臺還會通過蒐集反饋回來的失敗樣本，以及人工打碼的標定資料，來實時訓練和更新識別網路，不斷迭代訓練進行優化，進一步提高神經網路模型的識別能力。

在以往的對抗黑產過程中，由於犯罪行為認定、法律適用等問題，即使對下游從事詐騙的團伙開展打擊，但在針對“打碼平臺”這一犯罪上游環節上，能真正認定為共同犯罪，形成的實際判例非常少，無法實現全鏈條打擊。下游團伙藉助“打碼平臺”死灰復燃，也是多類網路黑灰產屢禁不止的原因之一。在市場上，“快啊答題”打碼平臺通過對接晒密軟體，根據打碼數量收取下游使用晒密軟體的黑產犯罪團伙費用，而後再按比例進行分成。

像 “快啊答題” 這類的打碼平臺，不僅破壞了網際網路公司的驗證碼安全體系，也直接或間接的為更多網路黑產提供了幫助。在騰訊守護者計劃安全團隊和警方的共同努力下， “快啊答題” 平臺負責人及核心人員被公安機關以提供侵入、非法控制計算機資訊系統程式工具罪批准逮捕。

黑產用“未來武器”破解驗證碼，打碼小工都哭了

打碼平臺：對抗驗證碼系統而生

“打碼平臺”會與“晒密”軟體作者合作：

AI技術破解“晒密”低效難題

1、生成方法

2、多標籤訓練

黑產用“未來武器”破解驗證碼，打碼小工都哭了

python 中最好用的身份證規則解析工具，地區碼、性別、出生年月、身份證編碼等快速校驗！

class位元組碼，這次我算看透你了！

計算機二進位制中的原碼，反碼，補碼

用Python自動清理系統垃圾，再也不用360安全衛士了

SQL中的主鍵，候選鍵，外來鍵，主碼，外碼

python 原碼，反碼，補碼

EDG奪冠！用Python分析22.3萬條資料：粉絲都瘋了!

替代數字編號，美國 UCF 橄欖球隊將在球衣背面印上二維碼，掃碼可檢視球員詳情

浙江杭州推出全新“場所碼”，健康碼、疫苗接種、核酸檢測和行程卡“四碼一屏”顯示

編碼ascii碼，unicode碼，utf-8編碼

關於機器數，真值，原碼，反碼，補碼的認識

selenum破解驗證碼要用到的程式碼

Python爬蟲實戰演示：破解驗證碼識別和彈窗處理

爬蟲之打碼平臺（驗證碼破解）

超級鷹破解驗證碼

困惑你很久的滑動驗證碼，破解方案來啦（轉載）

Python破解BiliBili滑塊驗證碼，完美避開人機識別

selenium補充及破解驗證碼的方法及高階案例

Servlet | 用 Response 搞一個驗證碼

黑產用“未來武器”破解驗證碼，打碼小工都哭了

打碼平臺：對抗驗證碼系統而生

“打碼平臺”會與“晒密”軟體作者合作：

AI技術破解“晒密”低效難題

1、生成方法

2、多標籤訓練

相關推薦