tesseract-ocr 使用java進行識別

阿新 • • 發佈：2018-11-21

需要加入如下的jar

 <dependency>
            <groupId>net.java.dev.jna</groupId>
            <artifactId>jna</artifactId>
            <version>4.1.0</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j -->
        <dependency>
            <groupId>net.sourceforge.tess4j</groupId>
            <artifactId>tess4j</artifactId>
            <version>3.2.1</version>
            <exclusions>
                <exclusion>
                    <groupId>com.sun.jna</groupId>
                    <artifactId>jna</artifactId>
                </exclusion>
            </exclusions>
        </dependency>

具體程式碼

 public static void ocr(String filename) {
        try {
            File tifFile = new File(filename);//要識別檔案
            ITesseract instance = new Tesseract();
            //指定放著庫資料夾的資料夾
            instance.setDatapath("/usr/local/share");
            instance.setLanguage("chi_sim");//設定為中文
            System.out.println( tifFile.canRead() );//檢視檔案是不是能被找到,可讀
            String result = instance.doOCR(tifFile);//進行識別
            System.out.println( result );
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }

tesseract-ocr 使用java進行識別

需要加入如下的jar <dependency> <groupId>net.java.dev.jna</groupId> <artifactId>jna</artifactId>

java 使用tess4J（Tesseract-OCR）進行圖片文字識別

java中識別文字使用的軟體是tesseractocr（使用的版本是3.02，3以後的版本才支援中文），這個軟體需要安裝在本地電腦中，安裝的過程中全部都按照預設進行安裝（以便於Java直接呼叫）中文訓練庫下載地址該軟體預設的識別的是英文，如果相要能識別中文，需要將中文的訓練

java+Tesseract-OCR實現圖片識別

1.今天和同事研究如何用java實現圖片識別。百度上大部分都是用tesseract去實現的。所以就做了一個demo （1）。首先下載Tesseract-OCR 3.02，以及中文包chi_sim.traineddata(簡體) （2）以下介紹兩種方式 cmd 方式和 t

關於Tesseract OCR 中文訓練識別小試（java呼叫Tess4j）

2017.9.20日小結最近接到是關於消防系統協議解析儀器的專案，目的是從協議解析儀器獲取有效資料，並解析資料（目的是不希望消防主機的資料資訊再傳給主機廠商而是最後能給自己收集呼叫）。由於各個消防器材廠商的協議不同，如果從串列埠讀取資料並一個個協

python+pillow+pytesseract+Tesseract-OCR驗證碼識別[轉]

安裝 pillow，pytesseract ，安裝該模組之後，還需要安裝 tesseract-ocr 。（PS：如果安裝了pip，可以python的scripts檔案下，輸入cmd,然後輸入pip install pillow安裝最新版的pillow,如果需要安裝其它版本的則要自己下載

【專欄】- Tesseract-OCR 圖片文字識別

Tesseract-OCR 圖片文字識別從零開始介紹Tesseract-OCR 圖片文字識別引擎 1.針對Windows系統 2.Tesseract-OCR安裝與環境配置 3.Tesseract-OCR的簡單使用與訓練

java利用tesseract-OCR對影象進行字元識別

try { Process pro = Runtime.getRuntime() .exec(new String[]{"D:/Program Files (x86)/Tesseract-OCR/tesseract.exe",

JAVA識別身份證號碼，H5識別身份證號碼，tesseract-ocr識別（二）

背景介紹上一篇博文介紹瞭如何使用JAVA識別身份證號碼，假設在截取了身份證號碼資訊的情況下，這一篇博文主要討論一下思路吧，技術方面都是大家會的。思路分析 H5拍照上傳 —> 服務端擷取身份證號碼 —–> 識別號碼 —–>

Tika結合Tesseract-OCR 實現光學漢字識別（簡體、宋體的識別率百分之百）—附Java原始碼實現及真實測試資料和訓練集下載地址

OCR(Optical character recognition) —— 光學文字識別，是影象處理的一個重要分支，中文的識別具有一定挑戰性，特別是手寫體和草書的識別，是重要和熱門的科學研究方向。可惜國內的科研院所，基本沒有大量的高識別率的訓練集&mdash

Python調用Tesseract-OCR完成圖片OCR識別

3.0 for 安裝 ima pla 2.7 str spa 文件 [硬件環境] Win10 64位 [軟件環境] Python版本：2.7.3 Python庫： 1.1) Pillow 1.2) Pytesseract 其他： 1.1) Tesseract-OCR的可執行

python tesseract-ocr 基礎驗證碼識別功能（Windows）

please 沒有 pan eas pin mage 需要 utf 文件夾一、環境　　windows 7 x64 　　Python 3 + 二、安裝　　1、tesseract-ocr安裝　　http://digi.bib.uni-mannheim.

Tesseract-OCR-03-圖片文字識別

目錄名 sso 搜集命令發出維護結果 rac class Tesseract-OCR-03-圖片文字識別本篇介紹使用 Tesseract-OCR 做圖片文字識別，識別手寫文字的時候，正確率能達到 90%，當訓練後正確率是極高的。這裏介紹的圖片文字識別，可以識別英文

python使用tesseract-ocr完成驗證碼識別

一、 tesseract-ocr C++編寫，最開始由hp編寫，後來束之高閣，最後決定貢獻給google開源。原始碼：https://github.com/tesseract-ocr/tesseract &nb

圖片文字識別：Tesseract OCR庫在Python中基本使用

圖片識別：Tesseract OCR庫在Python中基本使用一.Tesseract - Xmind的筆記二. 程式碼案例：基本使用程式碼 import pytesseract from

Tesseract-OCR識別中文與訓練字型檔例項

關於中文的識別，效果比較好而且開源的應該就是Tesseract-OCR了，所以自己親身試用一下，分享到部落格讓有同樣興趣的人少走彎路。文中所用到的身份證圖片資源是百度找的，如有侵權可聯絡我刪除。一、準備工作 1、下載Tesseract-OCR引擎，注意要3.0以

OCR Java華為雲身份證識別

之前寫了關於百度雲的身份證識別，現在再附上關於華為雲的身份證識別： controller層： /** * 讀取身份證資訊 * * @param file * @return */ @ApiOperation(value ="讀取身份證資訊", no

C#中Tesseract-OCR的使用，可識別中英日韓所有語言

原始碼下載：先上效果圖。測試中文英文日語識別，其他語言也都行，只要下載相應的語言包，操作使用後面都有講 1.首先在Nuget中搜索Tesseract，下載到專案中 3.程式碼操作首先先初始化類，設定語言 TesseractEngine ocr

基於Eclipse下的 tesseract -OCR實現圖片文字識別過程簡單介紹

前言：最近忙於考研複習，好久沒有敲程式碼了，本人目前只是學生，寫部落格的目的只是為了記錄自己的學習過程，當然，如果能為他人提供一些幫助，那更好了。一.Tesseract 簡介 Tesseract 是Ray Smith 在1985 - 1995年間在惠普布里斯托實驗室開發的一個ocr引擎（O

Tesseract-OCR 字元識別---樣本訓練

Tesseract是一個開源的OCR（Optical Character Recognition，光學字元識別）引擎，可以識別多種格式的影象檔案並將其轉換成文字，目前已支援60多種語言（包括中文）。 Tesseract最初由HP公司開發，後來由Goo

Java文字識別軟體-呼叫百度ocr實現文字識別

java_baidu_ocr Java呼叫百度OCR文字識別API實現圖片文字識別軟體專案原始碼在文末，放到了GitHub上 - https://github.com/Ymy214/java_baidu_ocr 識別圖一圖一識別結果識別圖二圖二識別結果識別圖三

tesseract-ocr 使用java進行識別

相關推薦