使用tesseract3.01字型檔訓練教程完成全國企業資訊中心簡單驗證碼的字型檔建立。

阿新 • • 發佈：2018-12-27

使用tesseract訓練教程完成全國企業資訊中心湖南驗證碼的字型檔建立。

準備工具

Tesseract3.01和3.02。下載名稱：tesseract-ocr-setup-3.02.02.exe

下載chi_sim.traindata字型檔（中文字型檔）
下載jTessBoxEitor用於修改box檔案（簡單來說通過這個工具獲取字型的形狀）

Win7環境下執行，需要管理員許可權

1. 準備

利用jTessBoxEitor將jpg影象轉換成tif影象。

進入介面選取所有的jpg格式的驗證碼影象

生成了名為hunan.tif綜合所有圖片的驗證碼圖片。

接著為了訓練字型檔。要生成.box檔案。在目錄下用cmd執行。

命令如下：tesseract hunan.tif hunan batch.nochopmakebox(我是預設字型檔改成中文簡體字型檔)如不是。請輸入tesseracthunan.tif hunan -l chi_sim batch.nochop makebox（-l chi_sim是為了呼叫chi_sim也就是中文簡體字型檔）

將圖片檔案和box檔案放在同一目錄

2用jTessBoxEditor.jar開啟tif檔案，然後根據實際情況修改box檔案

在此處為了識別方便講繁體中文或者簡體中文的漢字全部轉換為阿拉伯數字，同時將漢字元號改成符號，如加改成+。

這個識別率在樣本在一定範圍內會增加，但是如果樣本數量過多，導致字元特徵過多，會讓識別率降低。所以建議根據需求決定自己做的樣本空間的大小。

3.如何修改新增漢字

功能在圖片上已經說明，根據說明調整字型結構和提高識別率。

Eg：

需要改成

因為tesseract識別的是字元特徵。所以可以直接改成數字方便java端讀取。

4.生成.tr檔案

命令：tesseract hunan.tif hunan nobatchbox.train

5.接著生成一個unicharset檔案

命令：unicharset_extractor hunan.box

6.新建一個font_properties.txt檔案

裡面內容寫入

湖南 0 0 0 0 0表示普通預設字型

字型屬性檔案

在<字型>是一個字串命名的字型 ; <斜體>，<加粗>，<固定>，<襯線>和<哥特體>都是簡單的0或1標誌指示字型是與否的屬性。

例如湖南 1 1 0 0 0

就是表示湖南字型斜體加粗.

7.執行命令

mftraining -F font_properties.txt -Uunicharset -O unicharset hunan.tr

cntraining hunan.tr

生成

8合併檔案

a) unicharset改名為hunan. unicharset
b) inttemp改名為hunan.inttemp
c) normproto改名為hunan. normproto
d) pffmtable改名為hunan. Pffmtable

在cmd下執行combine_tessdatahunan.

生成湖南驗證碼字型檔。

9.將湖南字型檔加入Tesseract-OCR 安裝目錄下的tessdata

10.接著對新建的字型檔進行測試

將hunan.tif加入tesseract字型檔中進行測試。

輸入命令：tesseract hunan,tif hunan -l hunan

發現結果和預期一樣字型檔建立成功。

接著利用這種字型檔可大大提高對特定驗證碼的識別率。

同時給出的圖片驗證碼都是經過腐蝕演算法二值化處理的圖片。經過這樣處理對各省市的驗證碼處理率可達到80%

使用tesseract3.01字型檔訓練教程完成全國企業資訊中心簡單驗證碼的字型檔建立。

使用tesseract訓練教程完成全國企業資訊中心湖南驗證碼的字型檔建立。準備工具 Tesseract3.01和3.02。下載名稱：tesseract-ocr-setup-3.02.02.exe 下載chi_sim.traindata字型檔（中文字型檔）下載jTessBox

全國企業資訊中心幾個城市處理結果

/*********** 江蘇省的圖片處理****************/ public static BufferedImage handleForJiangsu(BufferedImage src){ BufferedImage src1 = null; src = Ima

springSecurity的學習筆記--使用spring-Security完成表單登陸，手機驗證碼登陸，第三方登陸

環境搭建好後，之後的練習進入了一個十分痛苦的階段！！但是與此同時，收穫也是比較可觀的。老師通過詳細的視訊講解，完成了表單登陸，包括賬號密碼和驗證碼登陸，手機驗證碼登陸，第三方登陸。每一個部分都進行了開發步驟說明，思路引領，以及程式碼重構！！！

Tesseract-OCR 訓練教程（一）

MF 根據 echo 實際應用 temp sse 自己文件替換實際應用中[font]替換為你自己的字體名，比如newfont、hehe等 1.根據tif生成box文件（位置寬高等信息）tesseract [font].font.exp0.tif [font].font

參考大神教程完成阿里雲自建伺服器esp8266和mqtt客戶端成功對接

阿里雲自建伺服器esp8266和mqtt客戶端成功對接阿里雲伺服器部分參考esp8266嵌入式大神資料：大神部落格最近組建了一個小群，感興趣的可以加入一起玩：476840321 微控制器也是很簡單的，用的esp8266最小系統。過程中間遇到了

01. Trulffle安裝教程

1. 首先安裝Truffle框架的話，他依賴nodejs環境，所以要先安裝nodejs環境(烏班圖) 1. sudo apt-get update

2018.11.01 NOIP訓練圖論（線段樹+倍增+dfs序）

傳送門一道挺妙的題。對於詢問點(u,v),如右圖所示，我們可以發現存在一個點m在u->v的路徑中，m子樹的點到u是最近的，m子樹外到v是最近的。其中dis(u,m)=(dis(u,v)-1)/2,且deep[u]>deep[v] 根據這個結論

2018.11.01 NOIP訓練梭哈（模擬）

傳送門這題貌似不考智商啊。直接按題意寫就可以了。事實上把牌從小到大排序之後寫起來很舒服的。然後就是有些地方可以人腦減程式碼量和判斷次數。（提示：滿堂紅和某幾種同類型的牌的大小判斷）然後注意A

Tesseract-OCR 在烏班圖下訓練教程

一、Tesseract訓練 1.下載Tesseract-OCR(相關版本自行選擇) 這個就不多說了，可以百度一下。 2.下載jTessBoxEditor(執行環境為java虛擬機器) 下載百度下載，有很多。開啟資料夾，目錄如下。把檔案下載到

使用NLTK的樸素貝葉斯分類器來訓練並完成分類工作

NLTK是Python的一個自然語言處理的模組，其中實現了樸素貝葉斯分類演算法。以下，就使用上一篇文中提到的資料，來應用這個模組實現樸素貝葉斯分類。NLTK的實現更加泛化，所以在應用到我們的資料上時需要做一點的轉化。首先來看一下NLTK官方文件中給出的一個簡單明瞭的例子

Maven -01- 簡介+視訊+教程+學習路線

Maven -01- 簡介+視訊+教程+學習路線 Maven 簡介： Maven 是 Apache 下的一個純 Java 開發的開源專案。基於專案物件模型（縮寫：POM）概念，Maven 利用一箇中央資訊片斷能管理一個專案的構建、報告和文件等步驟。 Maven

【html-01】h5教程學習筆記

h5為了語義化，（避免滿頁的div）新增了一些語義tag： head nav section footer aside article em b標籤，差別只在於語義化； The aside element gives me the means to include something in

[計算機視覺][神經網路與深度學習]SSD安裝及其訓練教程

git clone https://github.com/weiliu89/caffe.git cd caffe git checkout ssd(出現“分支”則說明copy-check成功)123進入下載好的caffe目錄，複製配置檔案 cd /home/usrname/caffe

[計算機視覺][神經網路與深度學習]Faster R-CNN配置及其訓練教程

Faster R-CNN教程最後更新日期：2016年4月29日本教程主要基於python版本的faster R-CNN，因為python layer的使用，這個版本會比matlab的版本速度慢10%，但是準確率應該是差不多的。目前已經實現的有兩種方式： Alternative trainingAp

HTS音源訓練教程

1.HTK安裝方法 HTK:始於劍橋大學工程系，後被微軟收購。版權屬於微軟的。一、下載安裝包下載兩個安裝包（下載連結）分別是HTK-3.5.beta-2.tar.gz以及HDecode-3.5.beta-1.tar.gz 二、安裝所需要的依賴庫 1\. su

[Andriod官方訓練教程]建立你的第一個App之開始另一個Activity

------------------------------------------------------------------------------------------ After completing the previous lesson, you h

[Andriod官方訓練教程]建立你的第一個App之建立一個Android專案

------------------------------------------------------------------------------------- An Android project contains all the files that c

10步完成SharePoint2010企業版管理中心配置嚮導

【我習慣鎖定至工作列】 2、使用者帳戶控制提示點確定繼續 3、 Windows安全，輸入賬號&密碼: user:king\spsadmin pass:sps_2010 4、左側導航欄最下面點選配置嚮導 --http://18-sps:2010/configurationwizards.as

Apache Shiro+SpringMVC+Hibernate Search+Hibernate+Bootstrap企業資訊管理系統基礎框架搭建整合例項程式碼教程

轉載：http://www.zuidaima.com/share/1764524204903424.htm 問題1：非常非常非常抱歉！！以為我的疏忽導致static目錄沒放進原來的專案！！浪費大家精力調bug。。。實在很對不起，現在重新上傳！！希望有問題的同學可以私信我或者Q群私聊(我不是很常上qq，但願發

Windows平臺 Code：：Blocks-16.01安裝入門教程

Code::Blocks-16.01的安裝，入門教程 2 安裝執行安裝完成後，首先需要配置編譯器，否則無法執行程式，如下圖 3 HelloWorld程式示例 File -> New -> Project 然後編譯，執行

使用tesseract3.01字型檔訓練教程完成全國企業資訊中心簡單驗證碼的字型檔建立。

使用tesseract訓練教程完成全國企業資訊中心湖南驗證碼的字型檔建立。

準備工具

1. 準備

2用jTessBoxEditor.jar開啟tif檔案，然後根據實際情況修改box檔案

3.如何修改新增漢字

4.生成.tr檔案

7.執行命令

8合併檔案

a) unicharset改名為hunan. unicharset b) inttemp改名為hunan.inttemp c) normproto改名為hunan. normproto d) pffmtable改名為hunan. Pffmtable

9.將湖南字型檔加入Tesseract-OCR 安裝目錄下的tessdata

10.接著對新建的字型檔進行測試

相關推薦

a) unicharset改名為hunan. unicharset
b) inttemp改名為hunan.inttemp
c) normproto改名為hunan. normproto
d) pffmtable改名為hunan. Pffmtable