Java 使用 Tess4J 實現圖片識別文字
阿新 • • 發佈:2019-01-02
今天研究了一個Tess4J 技術,中文基本上完全可以識別,分享一下,可參考或直接使用
下載 Tess4J jar,網址:http://sourceforge.net/projects/tess4j/
專案整合:把相關的jar放入lib中
然後把tessdata 放入和src同級目錄
測試:
package com.scanner.controller; import net.sourceforge.tess4j.ITesseract; import net.sourceforge.tess4j.Tesseract; import net.sourceforge.tess4j.TesseractException; import javax.imageio.ImageIO; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; public class OCR { public static void main(String[] args) throws TesseractException { ITesseract instance = new Tesseract(); //如果未將tessdata放在根目錄下需要指定絕對路徑(exe) //instance.setDatapath("D://download//Tess4J//tessdata"); //如果需要識別英文之外的語種,需要指定識別語種,並且需要將對應的語言包放進專案中 instance.setLanguage("chi_sim"); // 指定識別圖片 File imgDir = new File("E://scannerui//scanner//filedata//u1//001.png"); long startTime = System.currentTimeMillis(); String ocrResult = instance.doOCR(imgDir); // 輸出識別結果 System.out.println("OCR Result: \n" + ocrResult + "\n 耗時:" + (System.currentTimeMillis() - startTime) + "ms"); } }