1. 程式人生 > >Tesseract-OCR 訓練教程(一)

Tesseract-OCR 訓練教程(一)

MF 根據 echo 實際應用 temp sse 自己 文件 替換

實際應用中[font]替換為你自己的字體名,比如newfont、hehe等

1.根據tif生成box文件(位置寬高等信息)
tesseract [font].font.exp0.tif [font].font.exp0 batch.nochop makebox
2.jTessBoxEditor 調整字體參數
3.定義字符配置文件
echo [font] 0 0 0 0 0>font_properties
font 0 0 0 0 0

4.從所有文件中提取字符,生成字符集文件
unicharset_extractor.exe [font].font.exp0.box

5.生成訓練文件(.tr)
tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 nobatch box.train
6.生成字體特征文件
mftraining -F font_properties -U unicharset -O [font].unicharset [font].font.exp0.tr

7.聚合tr文件
cntraining.exe [font].font.exp0.tr

8.重命名文件
rename normproto [font].normproto
rename inttemp [font].inttemp
rename pffmtable [font].pffmtable
rename shapetable [font].shapetable

9.合並所有文件,生成一個大的資庫文件
combine_tessdata.exe [font].

Tesseract-OCR 訓練教程(一)