用次世代2.3訓練自己的字元庫cds小demo

阿新 • • 發佈：2019-01-08

從我前幾天寫的 python 基於次世代驗證碼識別系統的小demo 中大家可以得知，如果有antiVC.dll 和關於特定網站的字元庫cds，我們就能夠讓瀏覽器自動識別驗證碼了。雖然網路有不少視訊關於怎麼訓練cds，我還是總結下吧，哎，備忘。

自己訓練資料相對於去購買什麼超級鷹API啊，de-captcher啊這種驗證碼識別平臺，有2個好處，一是不用考慮網路延遲，二是API都是收費的，小弟我也是Naive得貢獻了10幾刀的，╮(╯▽╰)╭

這裡可以貢獻下怎麼用de-captcher的驗證平臺（前提是你先註冊了de-captcher使用者並且購買了次數）：

#驗證碼線上驗證
def getTextFromImg(img_file):
    data = {
        'username': 'your_user',
        'password': 'your_pass',
        'function': 'picture2',
        'pict_to': '0',
        'pict_type': '0',
        'pict': img_file
    }
    keys = 'ResultCode|MajorID|MinorID|Type|Timeout|Text'.split('|')
    de_captcher_server = "http://poster.de-captcher.com/"
    try:
        opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())
        result = opener.open(de_captcher_server, urllib.urlencode(data))
        data = result.read()
        #print 'check_code:',data
        return dict(zip(keys, data.split('|')))
    except KeyError,e:
        print str(e)
        return result

可以發現它的驗證碼地址是我們最喜歡的固定URL，每次F5都是新的驗證碼。

有些網站驗證碼動態URL，而且還是JS生成，我們需要JS解析器。

那個要自己寫指令碼跑，思路有兩種：

二是通過selenium+PhantomJS，動態解析頁面原始碼下載下來，獲取URL後通過訪問下載圖片，可參考我之前寫的：selenium 操控瀏覽器

有些同學可能發現了，方法二得到的驗證碼是不同於第一次獲得的驗證碼，畢竟每次訪問都會更新，又有什麼關係呢？

我們只要獲得驗證碼圖片用來訓練就行了。

總之上面的情況暫時不考慮，我們現在遇到的是最簡單的情況，同一URL可獲取不同的驗證碼：

然後依次選擇：分割識別、平均分割（因為看起來四四方方的很規整）、顯示字元分割矩形框、顯示識別結果、點選最右邊的加號選擇影象二值化：

再點選字模管理，選中自動分割影象：

雙擊第一個矩形“9”：

選擇切除白邊（有些雜點多的還要去除雜點），然後在右邊對應字元填下：9，告訴程式，以後遇見這種字元它就是9：

弄完一個後點擊“影象過載”，對第二個矩形3，做同樣的操作：

填入3後，我們可以看到已經有兩個字模了，弄完這些就可以儲存退出：

好的回到主介面，我們點選重新識別，可以看到喜人的結果：

好的，當你識別率很高很高的時候，點選專案管理，釋出識別庫，就能生存可愛的專屬的cds啦，不過正版軟體每次25軟妹幣，你捨得嗎？

吐槽下：

這基本上是我遇到的最最簡單的字模建立了，沒任何雜點，驗證碼超級規整，和我攻克的網站一比較就是被吊打的存在。。

有些難的，2000個字模以下別想識別成功，2k個啊有木有！！

要做足足兩天啊有木有！！！

難怪淘寶特定網站cds售價都是2k，3k軟妹幣啊有木有！！！

不是人幹得的啊有木有！！！

而且你還以為有些網站驗證碼這麼容易獲得嗎？還不是一個個用指令碼去跑的啊有木有！！

用次世代2.3訓練自己的字元庫cds小demo

從我前幾天寫的 python 基於次世代驗證碼識別系統的小demo 中大家可以得知，如果有antiVC.dll 和關於特定網站的字元庫cds，我們就能夠讓瀏覽器自動識別驗證碼了。雖然網路有不少視訊關於怎麼訓練cds，我還是總結下吧，哎，備忘。自己訓練資料相對於去購買什麼超

YOLOV3實戰2：訓練自己的資料集，你不可能出錯！

大家好，我是小p，今天給大家帶來一期用darknet版本YOLO V3訓練自己資料集的教程，希望大家喜歡。歡迎加入物件檢測群813221712討論和交流，進群請看群公告！一、搭建環境搭建環境和驗證環境是否已經正確配置已在YOLOV3實戰1中詳細介紹，請一定

用Tensorflow Object Detection API 訓練自己的資料集

一、準備資料集 Tensorflow Object Detection API 用 TFRecord 檔案格式讀取資料，需把 VOC 格式的資料集進行轉換（我自己的資料集是VOC2007） 1、修改 tensorflow/models/object_dete

用已有的模型來訓練自己的資料集（finetune）

1.首先準備自己的資料集，這次的資料集和上篇部落格中自己訓練的資料集是一樣的，按照上次的步驟，生成train_lmdb,val_lmdb和均值檔案 2.下載已有的模型這裡用的是caffenet模型，下載bvlc_reference_caffenet.caffemodel以及

sencha touch 2.3.1 自己定義圖示

E文好的請看下面文件 http://docs.sencha.com/touch/2.3.1/#!/guide/theming Adding Your Own Icons to Your Application E 文不好的人當然也要看上面的文件，如果安裝文件的方法做

Algs4-2.3.23Java的排序庫函數

bsp -- 使用 private 切分返回 ont ger 得出 2.3.23Java的排序庫函數。在練習2.3.22的代碼中使用Tukey‘s ninther方法來找出切分元素--選擇三組，每組三個元素，分別取三組元素的中位數，然後取三個中位數的中位數作為切分元素

Thinkphp3.2.3引入外部類庫的函式vendor()

Thinkphp3.2.3引入外部類庫位置：Thinkphp/library/vendor/weixinpay--- 當需要在控制器中引入該資料夾下的檔案的時候用函式vendor(); $class = str_replace(array('.', '#'), array

三周第一次課 2.27linux和windows互傳文件 3.1 用戶配置文件和密碼配置文件 3.2

學習打卡三周第一次課2.27linux和windows互傳文件3.1 用戶配置文件和密碼配置文件3.2 用戶組管理3.3 用戶管理 2.27linux和windows互傳文件首先要安裝lrzsz 這個包 sz 文件名把文件傳送到win系統上可以在win中指定目錄 rz 把win系統上的文件傳送到l

Spring Boot 2.3.0正式釋出：優雅停機、配置檔案位置萬用字元新特性一覽

> 當大潮退去，才知道誰在裸泳。。關注公眾號【**BAT的烏托邦**】開啟專欄式學習，拒絕淺嘗輒止。本文 [https://www.yourbatman.cn](https://www.yourbatman.cn) 已收錄，裡面一併有Spring技術棧、MyBatis、中介軟體等小而美的專欄供以學習哦。 [

thinkphp3.2.3+smarty解決success調用模板錯誤心得

target 文件夾是你跳轉大神 pub smart 出現 upload 最近學習thinkphp上癮，出現success找不到模板問題，查閱各大神解決方案，分享一下針對新手如何解決該問題，如有不對的地方請大神指正1.首先修改自己的config文件，添加如下配置代碼：

用 for 循環計算 1 + 2 + 3 + …… + 100

python += pytho 計算 pri color class blog int #!/usr/bin/python sum = 0 for i in range(1, 101): sum += i print sum

構建ASP.NET MVC5+EF6+EasyUI 1.4.3+Unity4.x註入的後臺管理系統（66）-MVC WebApi 用戶驗證 (2)

簡單權限管理 mark 調用接口 cat pps 總結回顧 bsp 前言：構建ASP.NET MVC5+EF6+EasyUI 1.4.3+Unity4.x註入的後臺管理系統（65）-MVC WebApi 用戶驗證 (1) 回顧上一節，我們利用w

2.3-用戶及組管理

用戶及組管理用戶和組管理資源分配： Authentication：認證 Authorization：授權 Accouting(Audition)：審計 token：只驗證密碼，不驗證用戶的機制認證(identity)：密碼和用戶名雙重驗證Linu

面試題3：在一個長度為n的數組裏的所有數字都在0到n-1的範圍內。數組中某些數字是重復的，但不知道有幾個數字是重復的。也不知道每個數字重復幾次。請找出數組中任意一個重復的數字。例如，如果輸入長度為7的數組{2,3,1,0,2,5,3}，那麽對應的輸出是第一個重復的數字2。

length value 如果 while 返回 sys public ret || package siweifasan_6_5; /** * @Description:在一個長度為n的數組裏的所有數字都在0到n-1的範圍內。 * 數組中某些數字是重復的，

用次世代2.3訓練自己的字元庫cds小demo

用次世代2.3訓練自己的字元庫cds小demo

YOLOV3實戰2：訓練自己的資料集，你不可能出錯！

用Tensorflow Object Detection API 訓練自己的資料集

用已有的模型來訓練自己的資料集（finetune）

sencha touch 2.3.1 自己定義圖示

Algs4-2.3.23Java的排序庫函數

Thinkphp3.2.3引入外部類庫的函式vendor()

三周第一次課 2.27linux和windows互傳文件 3.1 用戶配置文件和密碼配置文件 3.2

Spring Boot 2.3.0正式釋出：優雅停機、配置檔案位置萬用字元新特性一覽

thinkphp3.2.3+smarty解決success調用模板錯誤心得

用 for 循環計算 1 + 2 + 3 + …… + 100

構建ASP.NET MVC5+EF6+EasyUI 1.4.3+Unity4.x註入的後臺管理系統（66）-MVC WebApi 用戶驗證 (2)

2.3-用戶及組管理

藥易通藥業供應鏈管理系統8.2.2.3連鎖255用戶網絡版免狗

2.27Linux和windows互傳;3.1用戶配置文件和密碼配置文件;3.2/3.3用戶組用戶

三周第二次課(12月26) 3.4 usermod命令 3.5 用戶密碼管理 3.6 mkpasswd命令

python 1-2+3-4....99=? 這裏的題，我看到別人的寫法，五花八門的，自己也寫一個

四周第五次課（3月2日）

Linux學習筆記第四周第五次課（3月2日）

用次世代2.3訓練自己的字元庫cds小demo

相關推薦