1. 程式人生 > >tesseract-ocr識別中文掃描圖片例項講解

tesseract-ocr識別中文掃描圖片例項講解

 如:

  但卻很少看到在windows下的相關文章介紹。

  接下來我將一步步講述如何採用tesseract-ocr識別含有中文的圖片。

1、下載tesseract-ocr(注意3.0版本之後才支援中文的識別)

2、安裝tesseract-ocr

      解壓縮,雙擊 tesseract-ocr-setup-3.00.exe 即可根據提示一步步安裝,本人安裝的目錄是:D:/Program Files/Tesseract-OCR

      在該目錄下可看到tesseract.exe檔案,這就是我們後面程式中會呼叫到的執行程序。

3、自定義安裝語言包

      D:/Program Files/Tesseract-OCR目錄下找到/tessdata目錄,其是用來存放語言包,可把chi_sim.traineddata.gz   解壓縮之後的chi_sim.traineddata檔案複製到該目錄下即可。

4、編寫測試程式碼

        在編寫程式碼之前下載兩個jar包:jai_imageio-1.1-alpha.jar、swingx-1.0.jar,可在www.findjar.com 網站上去下載。

  1. import java.awt.image.BufferedImage;  
  2. import java.io.File;  
  3. import java.io.IOException;  
  4. import java.util.Iterator;  
  5. import java.util.Locale;  
  6. import javax.imageio.IIOImage;  
  7. import javax.imageio.ImageIO;  
  8. import javax.imageio.ImageReader;  
  9. import javax.imageio.ImageWriteParam;  
  10. import javax.imageio.ImageWriter;  
  11. import javax.imageio.metadata.IIOMetadata;  
  12. import javax.imageio.stream.ImageInputStream;  
  13. import javax.imageio.stream.ImageOutputStream;  
  14. import com.sun.media.imageio.plugins.tiff.TIFFImageWriteParam;  
  15. publicclass ImageIOHelper {  
  16.     /** 
  17.      * 圖片檔案轉換為tif格式 
  18.      * @param imageFile 檔案路徑 
  19.      * @param imageFormat 副檔名 
  20.      * @return 
  21.      */
  22.     publicstatic File createImage(File imageFile, String imageFormat) {  
  23.         File tempFile = null;  
  24.         try {  
  25.             Iterator<ImageReader> readers = ImageIO.getImageReadersByFormatName(imageFormat);  
  26.             ImageReader reader = readers.next();  
  27.             ImageInputStream iis = ImageIO.createImageInputStream(imageFile);  
  28.             reader.setInput(iis);  
  29.             //Read the stream metadata
  30.             IIOMetadata streamMetadata = reader.getStreamMetadata();  
  31.             //Set up the writeParam
  32.             TIFFImageWriteParam tiffWriteParam = new TIFFImageWriteParam(Locale.CHINESE);  
  33.             tiffWriteParam.setCompressionMode(ImageWriteParam.MODE_DISABLED);  
  34.             //Get tif writer and set output to file
  35.             Iterator<ImageWriter> writers = ImageIO.getImageWritersByFormatName("tiff");  
  36.             ImageWriter writer = writers.next();  
  37.             BufferedImage bi = reader.read(0);  
  38.             IIOImage image = new IIOImage(bi,null,reader.getImageMetadata(0));  
  39.             tempFile = tempImageFile(imageFile);  
  40.             ImageOutputStream ios = ImageIO.createImageOutputStream(tempFile);  
  41.             writer.setOutput(ios);  
  42. 相關推薦

    tesseract-ocr識別中文掃描圖片例項講解

     如:   但卻很少看到在windows下的相關文章介紹。   接下來我將一步步講述如何採用tesseract-ocr識別含有中文的圖片。 1、下載tesseract-ocr(注意3.0版本之後才支援中文的識別) 2、安裝t

    Tesseract-OCR識別中文與訓練字型檔例項

    關於中文的識別,效果比較好而且開源的應該就是Tesseract-OCR了,所以自己親身試用一下,分享到部落格讓有同樣興趣的人少走彎路。 文中所用到的身份證圖片資源是百度找的,如有侵權可聯絡我刪除。 一、準備工作 1、下載Tesseract-OCR引擎,注意要3.0以

    JAVA識別身份證號碼,H5識別身份證號碼,tesseract-ocr識別(二)

    背景介紹 上一篇博文介紹瞭如何使用JAVA識別身份證號碼,假設在截取了身份證號碼資訊的情況下,這一篇博文主要討論一下思路吧,技術方面都是大家會的。 思路分析 H5拍照上傳 —> 服務端擷取身份證號碼 —–> 識別號碼 —–>

    Tesseract OCR識別小結

    1、下載piccolox-1.2.jar、piccolo-1.2.jar ,看清楚了。是 piccolox-1.2.jar、piccolo-1.2.jar中 2、 2、I Run “new ScrollView().main(new String[]{"8461"});” in IntelliJ ,and

    Tesseract-OCR-v5.0中文識別,訓練自定義字型檔,提高圖片識別效果

    1,下載安裝Tesseract-OCR 安裝,連結地址https://digi.bib.uni-mannheim.de/tesseract/ ​ 2,安裝成功 tesseract -v 注意:安裝後,要新增系統環境變數 ​ 3,cmd指定目錄到 cd C:\Work\BlogsTest\Te

    Python調用Tesseract-OCR完成圖片OCR識別

    3.0 for 安裝 ima pla 2.7 str spa 文件 [硬件環境] Win10 64位 [軟件環境] Python版本:2.7.3 Python庫: 1.1) Pillow 1.2) Pytesseract 其他: 1.1) Tesseract-OCR的可執行

    Tesseract-OCR-03-圖片文字識別

    目錄名 sso 搜集 命令 發出 維護 結果 rac class Tesseract-OCR-03-圖片文字識別 本篇介紹使用 Tesseract-OCR 做圖片文字識別,識別手寫文字的時候,正確率能達到 90%,當訓練後正確率是極高的。這裏介紹的圖片文字識別,可以識別英文

    圖片文字識別Tesseract OCR庫在Python中基本使用

    圖片識別:Tesseract OCR庫在Python中基本使用   一.Tesseract - Xmind的筆記     二. 程式碼案例:   基本使用程式碼  import pytesseract from

    關於使用tess4j-OCR識別圖片中文教程,親測可用,不報錯

    tess4j是hp 在20sh世紀90年代研發,最後貢獻給google 的 開源專案 自 版本3.0.2後支援了對中文字型檔的識別 jar包最簡單的獲取方式 idea 建立maven工程在pom.xml引入 tess4j <!-- https://mvnreposi

    基於Eclipse下的 tesseract -OCR實現圖片文字識別過程簡單介紹

    前言:最近忙於考研複習,好久沒有敲程式碼了,本人目前只是學生,寫部落格的目的只是為了記錄自己的學習過程,當然,如果能為他人提供一些幫助,那更好了。 一.Tesseract 簡介 Tesseract 是Ray Smith 在1985 - 1995年間在惠普布里斯托實驗室開發的一個ocr引擎(O

    java+Tesseract-OCR實現圖片識別

    1.今天和同事研究如何用java實現圖片識別。百度上大部分都是用tesseract去實現的。所以就做了一個demo (1)。首先下載Tesseract-OCR 3.02,以及中文包chi_sim.traineddata(簡體) (2)以下介紹兩種方式  cmd 方式 和 t

    識別圖片tesseract-ocr的配置

    1.下載 tesseract-ocr-setup-4.00.00dev.exe 百度網盤:(https://pan.baidu.com/s/1GnVjl7DsAJrWh2JfpwKbcA) 安裝步驟不難,也不需要改什麼東西,按著他的步驟來就ok。 2.安裝完事之後需要配置環境變數(PATH

    Tesseract-OCR 字元識別---樣本訓練 圖片識別訓練

            Tesseract是一個開源的OCR(Optical Character Recognition,光學字元識別)引擎,可以識別多種格式的影象檔案並將其轉換成文字,目前已支援60多種語言(包括中文)。 Tesseract最初由HP公司開發,後來由Google維護,目前釋出在Googel Pr

    【 專欄 】- Tesseract-OCR 圖片文字識別

    Tesseract-OCR 圖片文字識別 從零開始介紹Tesseract-OCR 圖片文字識別引擎 1.針對Windows系統 2.Tesseract-OCR安裝與環境配置 3.Tesseract-OCR的簡單使用與訓練

    java 使用tess4J(Tesseract-OCR)進行圖片文字識別

    java中識別文字使用的軟體是tesseractocr(使用的版本是3.02,3以後的版本才支援中文),這個軟體需要安裝在本地電腦中,安裝的過程中全部都按照預設進行安裝(以便於Java直接呼叫)中文訓練庫下載地址 該軟體預設的識別的是英文,如果相要能識別中文,需要將中文的訓練

    Tesseract-OCR】玩轉OCR中文識別

    一、準備工作: 1、下載Tesseract-OCR引擎,注意要3.0以上才支援中文哦,按照提示安裝就行。 2、下載chi_sim.traindata字型檔。要有這個才能識別中文。下好後,放到Tesseract-OCR專案的tessdata資料夾裡面。

    關於Tesseract OCR 中文訓練識別小試(java呼叫Tess4j)

    2017.9.20日小結 最近接到是關於消防系統協議解析儀器的專案,目的是從協議解析儀器獲取有效資料,並解析資料(目的是不希望消防主機的資料資訊再傳給主機廠商而是最後能給自己收集呼叫)。由於各個消防器材廠商的協議不同,如果從串列埠讀取資料並一個個協

    身份證掃描識別/身份證OCR識別的正確姿勢,你get到了嗎?

    視頻流 開發包 掃描識別 出錯 應用 左右 信息 設備 ucs 自從國家規定電信實名制之後,實名制已經推廣到各個領域:辦理通信業務需要實名制、銀行開戶需要實名制、移動支付需要實名制,就連註冊個自媒體賬戶都需要實名制。 而實名制的背後,就是身份證信息的采集和錄入驗證。 傳統的

    python tesseract-ocr 基礎驗證碼識別功能(Windows)

    please 沒有 pan eas pin mage 需要 utf 文件夾 一、環境   windows 7 x64   Python 3 + 二、安裝   1、tesseract-ocr安裝   http://digi.bib.uni-mannheim.

    Java OCR 圖像智能字符識別技術,可識別中文

    reader bsp 中文字符 rect rup n) java.awt set 濾波 http://blog.csdn.net/zhoushuyan/article/details/5948289 驗證碼的OCR方式識別 http://ykf.iteye.com/blo