Tesseract-OCR-v5.0中文識別,訓練自定義字型檔,提高圖片的識別效果

阿新 • • 發佈：2020-01-22

1，下載安裝Tesseract-OCR 安裝，連結地址https://digi.bib.uni-mannheim.de/tesseract/

2，安裝成功 tesseract -v

注意：安裝後，要新增系統環境變數

3，cmd指定目錄到 cd C:\Work\BlogsTest\TestPic，要識別圖片的資料夾識別：tesseract test.png result -l chi_sim

識別成功的效果，result.txt檔案會自動生成

要注意：Tesseract-OCR的安裝目錄要包含識別中文的字符集chi_sim.traineddata，可以在GitHub下載https://github.com/tesseract-ocr/tessdata

4，可見第3步的識別效果不是很好，想到通過訓練自定義字型檔,提高圖片的識別效果

（0）下載安裝jTessBoxEditor，https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

注意要安裝JavaRuntime

（1）開啟jTessBoxEditor，選擇Tools->Merge TIFF，進入訓練樣本所在資料夾，選中要參與訓練的樣本圖片：

（2）點選 “開啟” 後彈出儲存對話方塊，選擇儲存在當前路徑下，檔案命名為 “qq66.test.exp0.tif” ，格式只有一種 “TIFF” 可選。

tif文面命名格式[lang].[fontname].exp[num].tif
lang是語言，fontname是字型，num為自定義數字。

比如我們要訓練自定義字型檔 qq66，字型名test，那麼我們把圖片檔案命名為 qq66.test.exp0.tif

（3）使用tesseract生成.box檔案

tesseract qq66.test.exp0.tif qq66.test.exp0 -l chi_sim --psm 6 batch.nochop makebox

注意：--psm的語法，數字對應不同的頁面分割模式。

（4）使用jTessBoxEditor矯正.box檔案的錯誤

開啟後矯正後，點選 save

（5）生成font_properties檔案：（該檔案沒有後綴名）

執行命令，執行完之後，會在當前目錄生成font_properties檔案
echo test 0 0 0 0 0 >font_properties

也可以手工新建一個名為font_properties的文字檔案，輸入內容 “test 0 0 0 0 0” 表示字型test的粗體、傾斜等共計5個屬性。這裡的“test”必須與“qq66.test.exp0.box”中的“test”名稱一致。

（6）使用tesseract生成.tr訓練檔案

執行下面命令，執行完之後，會在當前目錄生成qq66.test.exp0.tr檔案。

tesseract qq66.test.exp0.tif qq66.test.exp0 nobatch box.train

（7）生成字符集檔案：

執行下面命令：執行完之後會在當前目錄生成一個名為“unicharset”的檔案。

unicharset_extractor qq66.test.exp0.box

（8）生成shape檔案：

執行下面命令，執行完之後，會生成 shapetable 和 zwp.unicharset 兩個檔案。

shapeclustering -F font_properties -U unicharset -O qq66.unicharset qq66.test.exp0.tr

（8）生成聚字元特徵檔案

執行下面命令，會生成 inttemp、pffmtable、shapetable和zwp.unicharset四個檔案。

mftraining -F font_properties -U unicharset -O qq66.unicharset qq66.test.exp0.tr

（9）生成字元正常化特徵檔案

執行下面命令，會生成 normproto 檔案。

cntraining qq66.test.exp0.tr

（10）檔案重新命名
重新命名inttemp、pffmtable、shapetable和normproto這四個檔案的名字為[lang].xxx。

這裡修改為qq66.inttemp、qq66.pffmtable、qq66.shapetable和qq66.normproto

（11）合併訓練檔案
執行下面命令，會生成qq66.traineddata檔案。

combine_tessdata qq66.

最後檔案目錄

5，用新生成的qq66.traineddata字符集，重新識別身份證

6，可以同時選擇多個不同的樣本生成box檔案

7，在原有訓練資料的基礎上，加入新的字元訓練資訊

經研究找到實用合併方法（紅色部分為示例，實際應為你自己生成的檔名）：

在新的訓練資料生成.box 和.tr檔案後，

生成字符集 unicharset_extractor add.font.exp0.box new.font.exp0.box

合併訓練資料(.tr)

mftraining -F font_properties -U unicharset -O added.unicharset add.font.exp0.tr new.font.exp0.tr

聚合所有的tr檔案：

cntraining add.font.exp0.tr new.font.exp0.tr

8，設定圖片分割模式

Page segmentation modes:

0 = Orientation and script detection (OSD) only.
1 = Automatic page segmentation with OSD.
2 = Automatic page segmentation, but no OSD, or OCR
3 = Fully automatic page segmentation, but no OSD. (Default)
4 = Assume a single column of text of variable sizes.
5 = Assume a single uniform block of vertically aligned text.
6 = Assume a single uniform block of text.
7 = Treat the image as a single text line.
8 = Treat the image as a single word.
9 = Treat the image as a single word in a circle.
10 = Treat the image as a single character.

例如：

tesseract test.png result -l chi_sim -psm 7 nobatch

Tesseract-OCR-v5.0中文識別,訓練自定義字型檔,提高圖片的識別效果

Tesseract-OCR-v5.0中文識別,訓練自定義字型檔,提高圖片的識別效果

android之4.0控制元件switch自定義開關背景圖片和控制寬度

自定義ImageView實現圖片圓角效果

Tesseract-OCR 簡單的中文數字混合訓練

[筆記]Win10下編譯Tesseract-OCR 4.0

Tesseract-OCR的簡單使用與訓練

Tesseract-OCR 3.0+ 安裝和使用

如何用TensorFlow訓練和識別/分類自定義圖片

vue2.0學習筆記之自定義組件

Vue2.0筆記——{{}}模板與自定義過濾器

發票識別----增值稅專，普發票識別，自定義票據識別，機動車銷售發票識別

Lodop自定義大小不能識別241mm93mm這種規格的解決辦法 Lodop扁寬橫向241mm93mm這種怪異的紙張如何設定

SpringBoot(10) Servlet3.0的註解：自定義原生Servlet、自定義原生Listener

利用 .NET Framework 2.0 建立並宿主自定義的設計

Android自定義語音音訊對話識別翻譯動畫控制元件

可以傳中文引數的自定義http協議請求方式

solr7.3配置中文分析器和自定義業務域

android5.0輸入系統新增自定義按鍵

android自定義虹軟人臉識別框/人臉抓拍框/人臉追蹤框

pvanet 訓練自定義資料

Tesseract-OCR-v5.0中文識別,訓練自定義字型檔,提高圖片的識別效果

相關推薦