1. 程式人生 > >ocr tesseract 3.4訓練記錄

ocr tesseract 3.4訓練記錄

安裝tesseract

brew uninstall tesseract
brew install --with-training-tools tesseract

構建字符集

  • 合併為tif
    tools-Merge Tiff

儲存為num.myfont.exp0.tif

  • 生成box

tesseract num.myfont.exp0.tif num.myfont.exp0 -l eng -psm 7 batch.nochop makebox
  • 使用jTessBoxEditor修改box檔案(這個檔案也可以手動改)

  • box檔案如下,可以看出是第幾頁是什麼字元,座標大小是什麼

  • A 340 43 359 68 0
    B 363 43 379 68 0
    B 384 43 400 68 0
    D 405 43 420 68 0
    E 426 43 440 68 0
    F 445 43 460 68 0
    G 463 43 479 68 0
    H 483 43 500 68 0
    I 506 43 510 68 0
    J 514 43 529 68 0
    K 534 43 550 68 0
    L 554 43 568 68 0
    M 572 43 593 68 0
    N 598 43 616 68 0
    O 621 43 637 68 0
    P 643 43 659 68 0
    Q 662 38 679 68 0
    R 684 43 702 68 0
    S 706 43 722 68 0
    T 724 43 742 68 0
    U 745 43 761 68 0
    V 765 43 783 68 0
    W 785 43 811 68 0
    X 814 43 831 68 0
    Y 833 43 851 68 0
    Z 853 43 870 68 0
    1 872 43 883 68 0
    2 887 43 901 68 0
    3 905 43 919 68 0
    4 922 43 940 68 0
    5 942 43 957 68 0
    6 961 43 975 68 0
    7 978 43 993 68 0
    8 996 43 1011 68 0
    9 1015 43 1030 68 0
    0 1034 43 1049 68 0
    a 461 44 476 62 1
    b 481 44 496 69 1
    c 500 45 515 62 1
    d 518 44 533 69 1
    e 538 44 553 62 1
    f 556 45 568 69 1
    g 571 38 586 62 1
    h 591 45 605 69 1
    i 610 45 615 69 1
    j 617 38 625 69 1
    k 630 45 645 69 1
    l 649 45 654 69 1
    m 659 45 684 62 1
    n 689 45 703 62 1
    o 708 45 723 62 1
    p 728 38 743 62 1
    q 747 38 762 62 1
    r 768 45 778 62 1
    s 780 45 795 62 1
    t 797 45 808 67 1
    u 812 44 827 62 1
    v 830 45 846 62 1
    w 849 45 870 62 1
    x 873 45 888 62 1
    y 890 38 906 62 1
    z 909 45 923 62 1
    @ 414 37 430 62 2
    # 443 38 466 62 2
    $ 479 34 494 65 2
    % 507 35 540 62 2
    ^ 551 49 566 62 2
    & 579 38 599 62 2
    * 608 49 623 62 2
    _ 633 36 648 38 2
    - 659 46 668 50 2
    = 680 42 693 52 2
    + 705 39 721 55 2
    \ 733 33 746 62 2
    / 758 33 772 62 2
    < 784 37 801 56 2
    > 815 37 832 56 2
    " 844 52 859 62 2
    | 871 30 874 67 2
    ? 888 37 902 62 2
    ! 916 37 921 62 2
    ` 935 57 942 63 2
    ~ 957 44 973 51 2
    [ 986 33 994 67 2
    ] 1002 33 1011 67 2
    ( 1025 30 1033 66 2
    ) 1041 30 1049 66 2
     

  • 生產font_properties

echo myfont 0 0 0 0 0 >font_properties
  • 生成訓練檔案

tesseract num.myfont.exp0.tif num.myfont.exp0 -l eng -psm 7 nobatch box.train
  • 生成字符集檔案

unicharset_extractor num.myfont.exp0.box
  • 生成shape

shapeclustering -F font_properties -U unicharset -O myfont.unicharset num.myfont.exp0.tr
  • 聚合字元特徵檔案

mftraining -F font_properties -U unicharset -O myfont.unicharset num.myfont.exp0.tr
  • 正常化

cntraining num.myfont.exp0.tr
  • 合併訓練檔案

cp normproto myfont.normproto
cp inttemp myfont.inttemp
cp pffmtable myfont.pffmtable
cp unicharset myfont.unicharset
cp shapetable myfont.shapetable
combine_tessdata myfont.

新增語言

brew list tesseract

檢視tessdata位置

cp myfont.traineddata /usr/local/Cellar/tesseract/3.04.01_2/share/tessdata/
tesseract --list-langs

測試

tesseract 9606.tif output -l myfont -psm 7

doc

總結:

tesseract 4 以下的版本就是修改過後識別率也不是很高,但cnn 識別很好但是慢的很。有空弄一下4.0的lstm 看看效果。

相關推薦

ocr tesseract 3.4訓練記錄

安裝tesseract brew uninstall tesseract brew install --with-training-tools tesseract 構建字符集 合併為tif tools-Merge Tiff 儲存為num.myfont.exp0

OCR----Tesseract 3.x架構及原理解析

Tesseract的歷史 Tesseract是一個開源的OCR引擎,惠普公司的布裡斯托爾實驗室在1984-1994年開發完成。起初作為惠普的平板掃描器的文字識別引擎。Tesseract在1995年UNLV OCR字元識別準確性測試中拔得頭籌,受到廣泛關注。

從頭認識Spring-3.4 簡單的AOP日誌實現-擴展添加檢查訂單功能,以便記錄並檢測輸入的參數

pack logging exe app 基礎上 config round statistic was 這一章節我們再上一個章節的基礎上加上一個檢查訂單功能1.dom

CentOS 7.3 CDH 5.10.0 Druid0.12.4安裝記錄

文件夾權限 zxvf crypt 用戶 卸載 文件夾 check PE 0.11 CentOS 7.3 CDH 5.10.0安裝記錄 0. 集群規劃192.167.1.247 realtime247 realtime+hadoopdata192.167.1.24

Tesseract-OCR識別中文與訓練字型檔例項

關於中文的識別,效果比較好而且開源的應該就是Tesseract-OCR了,所以自己親身試用一下,分享到部落格讓有同樣興趣的人少走彎路。 文中所用到的身份證圖片資源是百度找的,如有侵權可聯絡我刪除。 一、準備工作 1、下載Tesseract-OCR引擎,注意要3.0以

山科java實驗3-4 假設某餐館中每桌顧客點菜記錄的格式為“北京烤鴨:189 西芹百合:15 清蒸鱸魚:80”(每道菜的價格與下一道菜的名字之間有一個空格)。編寫一個類的方法,能夠接受鍵盤錄入的符合

假設某餐館中每桌顧客點菜記錄的格式為“北京烤鴨:189 西芹百合:15 清蒸鱸魚:80”(每道菜的價格與下一道菜的名字之間有一個空格)。編寫一個類的方法,能夠接受鍵盤錄入的符合上述格式的點菜內容字串,輸

Tesseract-OCR 字元識別---樣本訓練

        Tesseract是一個開源的OCR(Optical Character Recognition,光學字元識別)引擎,可以識別多種格式的影象檔案並將其轉換成文字,目前已支援60多種語言(包括中文)。 Tesseract最初由HP公司開發,後來由Goo

Tesseract-OCR 字元識別---樣本訓練 圖片識別訓練

        Tesseract是一個開源的OCR(Optical Character Recognition,光學字元識別)引擎,可以識別多種格式的影象檔案並將其轉換成文字,目前已支援60多種語言(包括中文)。 Tesseract最初由HP公司開發,後來由Google維護,目前釋出在Googel Pr

記錄一下,Linux 3/4/5下寶塔面板忘記密碼怎麼處理

進入ssh 輸入以下命令重置密碼(把命令最後面的   “testpasswd”  替換成你要改的新密碼) 注:若是debian/ubuntu使用者,請使用有root許可權的賬戶去執行這條命令 cd /www/server/panel && python

k8s1.4.3安裝實踐記錄(1)-etcd、docker、flannel安裝配置

由於剛開始學習k8s,本次軟體的安裝,我們都採用最簡單的方式,能用yum 安裝的儘量採用yum安裝 1、ETCD安裝 ETCD官方文件:https://github.com/coreos/etcd/blob/master/Documentation/docs.md

Android Gradle Plugin(AGP) 升級 3.0+ ,Gradle升級4.4+過程記錄

一.背景 作為GP開發者,緊跟Google的腳步,升級開發環境和編譯環境,不僅可以提升編譯效率,新工具,新特性也是開發者們所期待的,當然隨著工具的升級App的質量也會提升。所以,專案定期推進技術升級,顯得很有必要。 專案中原有的一些配置 Androi

OCR開源庫Tesseract漢字識別訓練

先用中文做個示例: 1. 拿到一張chi.pingfang.exp0.jpg: 2. 將它轉化為tif:http://image.online-convert.com/convert-to-ti

Tesseract 3.02中文字型檔訓練----整理

下載chi_sim.traindata字型檔 下載tesseract-ocr-setup-3.02.02.exe             安裝到e:\Tesseract-ocr目錄下 1.Tes

2017.5.3 4.全排列

col font ace urn color span 順序輸出 所有 一個 題目描述 給定N(N<10),按照字典序輸出所有的N排列。 輸入 第一行輸入N。 樣例輸入 3 輸出 輸出1到N的全排列,一行一個排列,按照字典序順序輸出。

在Sql中將 varchar 值 '1,2,3,4,5,6' 轉換成數據類型 int

給定 序列 顯示 結果 空格 sel -方法 一個表 affect --問題:將aa轉換為Int類型失敗 string aa="3,5,11,56,88,45,23"; select * from ERPBuMen where ID in(aa) ; --方法sel

3.4 針對中文檢索的問題

合成詞 -h smart 人類 引擎 也有 信息 不同 應該 相對於英文檢索,中文檢索有兩個特別要考慮的問題:編碼問題和中文分詞問題。 一、編碼問題 1. 為了解決中文編碼問題,我們在網頁結構化信息預處理的時候統一采用utf-8編碼; 2. 在Lucene創建索引的時候,構

loadrunner-3-4創建目標場景

font img size 結果 目標 場景 cnblogs 技術分享 runner 定義:創建一個運行目標,通過Controller的自動加載功能進行自動化負載,如果測試的結果達到目標,說明系統的性能符合測試目標,否則就提示無法達到目標。 loadrunner-3-4創建

ABP官方文檔翻譯 3.4 領域服務

con 自然 應用服務 ati 不可見 個人 應該 主目錄 依賴註入 領域服務 介紹 IDomainService接口和DomainService類 示例 創建接口 服務實現 使用應用服務 一些探討 為什麽只有應用服務? 如何強制使用領域服務? 介紹   領域

GRPC 1.3.4 發布,Google 高性能 RPC 框架(Java C++ Go)

框架 9.png 高性能 修復 git ogl arch bsp 版本 GRPC 1.3.4 發布了,GRPC 是一個高性能、開源、通用的 RPC 框架,面向移動和 HTTP/2 設計,是由谷歌發布的首款基於 Protocol Buffers 的 RPC 框架。 GRPC

詳細圖解mongodb 3.4.1 win7x64安裝

個數 問題 存在 vertica ext 安裝服務 img value 數據庫管理 詳細圖解,記錄 win7 64 安裝mongo數據庫的過程。安裝的版本是 MongoDB-win32-x86_64-2008plus-ssl-3.4.1-signed。 我下載的源文件:m