1. 程式人生 > 其它 >黑產用“未來武器”破解驗證碼,打碼小工都哭了

黑產用“未來武器”破解驗證碼,打碼小工都哭了

當我們正討論如何用AI推動產業升級、改變未來生活時,不法分子也在研究AI技術,並通過各種手段非法牟利。近日,騰訊守護者計劃安全團隊協助警方打掉市面上最大打碼平臺“快啊答題”,挖掘出一條從撞庫盜號、破解驗證碼到販賣公民資訊、實施網路詐騙的全鏈條黑產。而在識別驗證碼這一關鍵環節,黑產竟已用上AI人工智慧技術。該團伙運用AI技術訓練機器,極大提升了單位時間內識別驗證碼的數量,2017年一季度打碼量達到259億次,且識別驗證碼的精準度超過80%。藉此案件,我們也深入研究AI打碼平臺黑產領域,對其犯罪模式進行剖析。

打碼平臺:對抗驗證碼系統而生

對於“驗證碼”,大家並不陌生。在登入各網站、平臺、APP時,經常見到。常見的“驗證碼”有“字元式”、“字元+點選式”、“滑塊拼圖式”和難度逆天的“12306式”。

             字元式                                 字元+點選式 
            滑塊拼圖式                             12306式

驗證碼(CAPTCHA ,Completely Automated Public Turing Test to Tell Computers and Humans Apart,全自動區分計算機和人類的圖靈測試),是區分計算機和人類的一種程式演算法,簡單解釋是一個答題的驗證。系統向請求發起方提問,能正確回答的即是人類,反之則為機器。從安全形度講,CAPTCHA經過不斷演化,已成為目前國內外各大網際網路公司用於對抗網路黑產惡意行為(如惡意登入)的驗證碼安全策略,即我們現在俗稱的驗證碼系統。

在網路黑產中,不法分子竊取網站資料庫後,需要確認帳號對應的密碼是否正確,將有價值的資料通過驗證的方式篩選出來,這一過程黑話叫“晒密”,意即撞庫。而“晒密”最核心的障礙就是網際網路公司設定的驗證碼安全體系。每天面對數以億計的“晒密”需求,黑產分子不可能人工逐個識別,而是需要提高“晒密”效率,批量識別。“打碼平臺”這一專業服務便應運而生。

“打碼平臺”會與“晒密”軟體作者合作:

1) 黑產團伙把盜取的帳號密碼資訊匯入到“晒密”軟體,“晒密”軟體模擬登入協議,向網際網路公司伺服器傳送登入請求。 2) 伺服器檢測到登入異常時,會下發驗證碼,進行安全策略攔截。 3) “晒密”軟體將收到的驗證碼圖片傳送給“打碼平臺”,請求將圖片轉化為字元。 4) 打碼平臺後臺破解驗證碼,將字元結果返回“晒密”軟體,完成“晒密”(撞庫)流程。 5) 這些“晒密”後得到的使用者資訊,則可能被騙子直接用於實施詐騙犯罪。

下面這張圖,可以看到“快啊答題”打碼平臺所涉及的從撞庫到晒密再到打碼的整個黑色產業鏈:

早期的打碼平臺,對驗證碼的識別基本是通過“人工+OCR降維識別圖片”完成。但是,網際網路公司的驗證碼安全策略升級後,包括出現像12306這樣識別難度高的驗證碼體系,“人工+OCR”方式的識別效率降低、成本升高,一段時期內,確實降低了黑產犯罪。

但是,黑產人員並不會因為一條路被堵死,就放棄犯罪,他們又想出了更前沿的手法來應對。目前市面上最大的 “快啊答題” 打碼平臺就是典型代表,他們運用目前最流行的人工智慧AI技術訓練機器,大大提高了識別驗證碼的精準度,也極大提升了犯罪嫌疑人在單位時間內識別驗證碼的數量。通過這個打碼平臺管理後臺的統計資訊顯示,2017年1-3月,其打碼量達到259億次,平臺累計打碼量超過1700億次。這套AI系統識別驗證碼成功率非常高,以下圖紅框標識處為例,當天的整體識別率會輸出成日誌檔案,通過隨機調取某日的日誌檔案,該日整體驗證碼識別率高達83.4%。

AI技術破解“晒密”低效難題

“快啊答題”打碼平臺基於主流AI深度學習Caffe框架,使用vgg16卷積核神經網路模型,可以直接輸入原始影象(避免了對影象的複雜前期預處理),並能通過深度的機器學習來獲得較高的驗證碼識別率。

(分散式AI驗證碼識別系統簡易流程介紹)

由於不同方式生成的驗證碼風格迥異,且經常變換,為了實現精準識別,提高準確度,“快啊答題”收集了大量不同風格的樣本,並開發了驗證碼接收與分發模組,輸入端對接打碼平臺,輸出端根據驗證碼型別輪詢選擇並推送到相應的驗證碼識別模型,驗證碼識別完成,返回驗證碼字串到打碼平臺,打碼平臺確認是否識別正確,並將結果反饋至該分散式AI驗證碼識別系統進行進一步優化。

(圖為識別平臺自身的管理介面)

1、生成方法

打碼平臺犯罪團伙通過以下步驟,迅速低成本地獲得海量驗證碼訓練資料:

(1)從網際網路公開渠道獲取字型樣本,輸出數字、字母、字母+數字、中文等不同型別驗證碼識別模型,獲得的公開字型庫,並且蒐集背景圖片,如桌布/風景類圖片。 (2)通過工具將不同字型的驗證碼進行加工處理(加干擾、變形等)後,寫入到背景圖片中,生成帶標定的訓練樣本。

由於目標問題是不定長度的字元序列識別,生成的訓練樣本的字元個數也是不定長度的,可以是1-6個任意字元,最多支援6個標籤的識別。黑產人員用一系列的驗證碼生成工具,來生成不同風格的驗證碼圖片,如下圖:

(作者通過工具生成的訓練樣本示例)

(3)打碼平臺犯罪團伙基於收集到的超過10000個字型庫,通過網路採集和字型檔背景生成訓練樣本,針對驗證碼識別業務,積累超過5000萬的樣本庫,覆蓋常見驗證碼模型。由此訓練得到的模型具有非常強的適用性,即便新型的驗證碼變種,也可達到較高識別率。

2、多標籤訓練

“快啊答題”打碼平臺的AI系統,能將一張驗證碼圖片作為一個整體,將單字識別轉換成單圖多標籤、端到端的識別出驗證碼中的所有字元。

針對網路上主流驗證碼圖片一般不超過6個字元的特點,該AI系統設計6個標籤的分類,對於少於6個字元的驗證碼圖片,未含字元的標籤會判定為負樣本不予輸出。因此,最終的輸出結果只包含給定字元的有效標籤。也就是,原本的OCR識別只能簡單識別圖形上的文字,而在文字變化後識別率就大大降低。而使用Caffe框架,就可以對圖形內的區域性特徵進行分類提取。

“快啊答題”打碼平臺基於海量訓練樣本,建立了多標籤分類網路來訓練驗證碼的識別網路。漢字的網路訓練週期為1個月左右,而英文+數字的網路訓練週期則只需要1個星期。

另外,“快啊答題”打碼平臺還會通過蒐集反饋回來的失敗樣本,以及人工打碼的標定資料,來實時訓練和更新識別網路,不斷迭代訓練進行優化,進一步提高神經網路模型的識別能力。

在以往的對抗黑產過程中,由於犯罪行為認定、法律適用等問題,即使對下游從事詐騙的團伙開展打擊,但在針對“打碼平臺”這一犯罪上游環節上,能真正認定為共同犯罪,形成的實際判例非常少,無法實現全鏈條打擊。下游團伙藉助“打碼平臺”死灰復燃,也是多類網路黑灰產屢禁不止的原因之一。在市場上,“快啊答題”打碼平臺通過對接晒密軟體,根據打碼數量收取下游使用晒密軟體的黑產犯罪團伙費用,而後再按比例進行分成。

像 “快啊答題” 這類的打碼平臺,不僅破壞了網際網路公司的驗證碼安全體系,也直接或間接的為更多網路黑產提供了幫助。在騰訊守護者計劃安全團隊和警方的共同努力下, “快啊答題” 平臺負責人及核心人員被公安機關以提供侵入、非法控制計算機資訊系統程式工具罪批准逮捕。