Tesseract-OCR訓練實現對模糊身份證號碼的識別

阿新 • • 發佈：2019-01-17

根據公司專案需求，需要通過掃描實現身份證號碼的提取，使用官方提供的識別庫，在正常情況下都能夠正確提取出身份證號碼，但是在身份證拍攝模糊的情況下，識別效果並不理想。根據需求，我接觸瞭解到Tesseract，它是一個開源的OCR（Optical Character Recognition,光學字元識別）引擎，可以識別多種格式的影象檔案並將其轉換成文字。接著通過進一步學習，訓練了一些模糊的身份證號碼樣本，提高了對模糊身份證號的識別準確度。

下面，我們將在Windows環境下安裝Tesseract實現對身份證號的識別及訓練工作。

1、Tesseract使用官方庫識別身份證號

1.1 安裝Tesseract-OCR

1.2 使用官方庫識別

準備一張待識別的身份證號圖片test.jpg

開啟cmd.exe，進入到test.jpg檔案目錄，執行：tesseract test.jpg output_test -l eng

【語法】: tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…]

imagename為目標圖片檔名，需加格式字尾；outputbase是轉換結果檔名；lang是語言名稱（在Tesseract-OCR中 tessdata資料夾可看到以eng開頭的語言檔案eng.traineddata），如不標-l eng則預設為eng。

在當前目錄下會生成output_test.txt檔案

對比發現，通過官方庫識別的結果並不理想，因此訓練自己的庫來完成識別。

2、Tesseract訓練自己的身份證號識別庫

2.1 安裝jTessBoxEditor

2.2 製作訓練樣本檔案

這裡製作了十張模糊化後的身份證號圖片，圖片格式為tif/tiff格式

2.3 合併樣本檔案

開啟jTessBoxEditor,Tools->Merge TIFF，將上述樣本全部選上，合併儲存為num.font.exp0.tif。這裡通過這種方式合併可能會出現Couldn't Seek錯誤，可以通過下載TIF/TIFF合併工具進行合併。下載地址：

http://download.csdn.net/download/u010782875/10033600

合併後的檔案如下：

2.4 字元矯正

開啟jTessBoxEditor，Box Editor ->Open，開啟num.font.exp0.tif，各頁上字元值和相應的座標資訊

2.5 生成box檔案

將num.font.exp0.tif放入到一指定目錄，開啟命令列切換到num.font.exp0.tif所在目錄，執行：tesseract num.font.exp0.tif num.font.exp0 batch.nochop makebox

【語法】：tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox

lang為語言名稱，fontname為字型名稱，num為序號；在tesseract中，一定要注意格式。

2.6 配置font_properties檔案

在上述資料夾中新建一個名為font_properties的文字檔案，內容為：

【語法】：<fontname> <italic> <bold> <fixed> <serif> <fraktur>

fontname為字型名稱，italic為斜體，bold為黑體字，fixed為預設字型，serif為襯線字型，fraktur德文黑字型，1和0代表有和無，精細區分時可使用。

2.7 生成.tr訓練檔案

在上述命令列介面執行：tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train

生成num.font.exp0.tr檔案

2.8 生成unicharset字符集檔案

接著執行：unicharset_extractor.exe num.font.exp0.box

生成unicharset檔案

2.9 生成shape檔案

執行：shapeclustering.exe -F font_properties.txt -U unicharset num.font.exp0.tr

生成shapetable檔案

2.10 生成聚集字元特徵檔案

執行：mftraining.exe -F font_properties.txt -U unicharset -O unicharset num.font.exp0.tr

生成inttemp、pffmtable檔案

2.11 生成字元正常化特徵檔案

執行：cntraining.exe num.font.exp0.tr

生成normproto檔案

2.12 更改檔名

手動將生成的inttemp、normproto、pffmtable、shapetable、unicharset五個檔案更改成如下檔名：

2.13 合併訓練檔案

執行：combine_tessdata.exe num.

生成num.traineddata檔案（不要忘記指令後面的那個“.”），將該檔案放到../Tesseract-OCR/tessdata目錄下進行接下來的測試

3、使用自己訓練的字元庫識別身份證號

還是使用上面的測試圖片進行對比測試，在命令視窗執行如下指令：tesseract test.jpg output_test -l num

這裡-l num就是使用了自己訓練的字元庫，開啟生成的output_test.txt檔案：

Tesseract-OCR訓練實現對模糊身份證號碼的識別

1、Tesseract使用官方庫識別身份證號

1.1 安裝Tesseract-OCR

1.2 使用官方庫識別

2、Tesseract訓練自己的身份證號識別庫

2.1 安裝jTessBoxEditor

2.2 製作訓練樣本檔案

2.3 合併樣本檔案

2.4 字元矯正

2.5 生成box檔案

2.6 配置font_properties檔案

2.7 生成.tr訓練檔案

2.8 生成unicharset字符集檔案

2.9 生成shape檔案

2.10 生成聚集字元特徵檔案

2.11 生成字元正常化特徵檔案

2.12 更改檔名

2.13 合併訓練檔案

3、使用自己訓練的字元庫識別身份證號

Tesseract-OCR訓練實現對模糊身份證號碼的識別

Tesseract-OCR 訓練教程（一）

tesseract-ocr訓練

詳解正則表示式實現二代身份證號碼驗證

正則實現二代身份證號碼驗證詳解

[python]Tesseract OCR訓練

身份證號碼識別

iOS之身份證號碼識別

JAVA識別身份證號碼，H5識別身份證號碼，tesseract-ocr識別（二）

Tika結合Tesseract-OCR 實現光學漢字識別（簡體、宋體的識別率百分之百）—附Java原始碼實現及真實測試資料和訓練集下載地址

Java實現身份證號碼驗證源碼分享

使用 tesseract-ocr生成訓練庫全部指令

mysql對身份證號碼進行脫敏處理

Python 實現判斷身份證號碼的有效性

tesseract-ocr使用以及訓練方法

Tesseract-OCR識別中文與訓練字型檔例項

Tesseract-OCR 在烏班圖下訓練教程

python實現對caffe的訓練，初始權重訓練和繼續訓練

java中實現對list的模糊查詢

基於Eclipse下的 tesseract -OCR實現圖片文字識別過程簡單介紹

Tesseract-OCR訓練實現對模糊身份證號碼的識別

1、Tesseract使用官方庫識別身份證號

1.1 安裝Tesseract-OCR

1.2 使用官方庫識別

2、Tesseract訓練自己的身份證號識別庫

2.1 安裝jTessBoxEditor

2.2 製作訓練樣本檔案

2.3 合併樣本檔案

2.4 字元矯正

2.5 生成box檔案

2.6 配置font_properties檔案

2.7 生成.tr訓練檔案

2.8 生成unicharset字符集檔案

2.9 生成shape檔案

2.10 生成聚集字元特徵檔案

2.11 生成字元正常化特徵檔案

2.12 更改檔名

2.13 合併訓練檔案

3、使用自己訓練的字元庫識別身份證號

相關推薦