1. 程式人生 > >Java 使用 Tess4J 實現圖片識別文字

Java 使用 Tess4J 實現圖片識別文字

今天研究了一個Tess4J 技術,中文基本上完全可以識別,分享一下,可參考或直接使用

下載 Tess4J jar,網址:http://sourceforge.net/projects/tess4j/

專案整合:把相關的jar放入lib中

然後把tessdata 放入和src同級目錄

測試:

package com.scanner.controller;


import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

import javax.imageio.ImageIO;

import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;


public class OCR {
	
	public static void main(String[] args) throws TesseractException {
		   
          ITesseract instance = new Tesseract();
          //如果未將tessdata放在根目錄下需要指定絕對路徑(exe)
          //instance.setDatapath("D://download//Tess4J//tessdata");
          //如果需要識別英文之外的語種,需要指定識別語種,並且需要將對應的語言包放進專案中
          instance.setLanguage("chi_sim");
          // 指定識別圖片
          File imgDir = new File("E://scannerui//scanner//filedata//u1//001.png");
          long startTime = System.currentTimeMillis();
          String ocrResult = instance.doOCR(imgDir);
          // 輸出識別結果
          System.out.println("OCR Result: \n" + ocrResult + "\n 耗時:" + 
          (System.currentTimeMillis() - startTime) + "ms");

	}
}

java 中識別圖片中的中文所需要的jar和demo下載