使用tesseract進行中文文字識別

阿新 • • 發佈：2019-02-05

簡介

本文主要介紹如何通過tesseract進行文字識別，及其識別效果。

效果圖

圖片
測試圖
測試結果

環境

ubuntu
python2.7

安裝

tesseract

sudo apt-get install tesseract-ocr

安裝tesseract tessdata https://github.com/tesseract-ocr/tessdata 下載對應語言文字學習資料，並儲存到/usr/share/tesseract-ocr/tessdata 或 /usr/share/tessdata 位置
pyocr

sudo pip install pyocr

測試程式碼

demo.py

from PIL import Image
import sys

import pyocr
import pyocr.builders

import sys

tools = pyocr.get_available_tools()

if len(tools) == 0:
    print("Not found OCR tool")
    sys.exit(1)

tool = tools[0]
print("Will use tool: '%s'" % (tool.get_name()))

langs = tool.get_available_languages()
print("Available languages: '%s'" % ", ".join(langs))
print("Will use lang '%s'" % ("chi_sim"))

txt = tool.image_to_string(
    Image.open('images/jjj.jpg'),
    lang='chi_sim',
    builder=pyocr.builders.TextBuilder(tesseract_layout=6)
)

print(txt)

執行

python2 demo.py

評價

文字識別的精度有待提升。一些畫素低的，如標點符號都不能很好的解析出來。有興趣的同學可以深入研究一下。

本文涉及程式碼

https://github.com/cangyan/python-ocr

參考連結

https://qiita.com/it__ssei/items/fd804dcb10997566593b

檢視原文：https://www.huuinn.com/archives/410
更多技術乾貨：風勻坊
關注公眾號：風勻坊

使用tesseract進行中文文字識別

簡介本文主要介紹如何通過tesseract進行文字識別，及其識別效果。效果圖圖片測試圖測試結果環境 ubuntu python2.7 安裝 tesseract s

java 使用tess4J（Tesseract-OCR）進行圖片文字識別

java中識別文字使用的軟體是tesseractocr（使用的版本是3.02，3以後的版本才支援中文），這個軟體需要安裝在本地電腦中，安裝的過程中全部都按照預設進行安裝（以便於Java直接呼叫）中文訓練庫下載地址該軟體預設的識別的是英文，如果相要能識別中文，需要將中文的訓練

中文文字識別 FSNS格式tfrecord生成

最近，想使用谷歌的Attention OCR做中文文字識別，專案github地址：https://github.com/A-bone1/Attention-ocr-Chinese-Version，中文介紹可參考CSDN部落格：https://blog.csdn.net/qq_

【專欄】- Tesseract-OCR 圖片文字識別

Tesseract-OCR 圖片文字識別從零開始介紹Tesseract-OCR 圖片文字識別引擎 1.針對Windows系統 2.Tesseract-OCR安裝與環境配置 3.Tesseract-OCR的簡單使用與訓練

Win7下安裝Python影象處理庫PIL、pytesser、tesseract進行驗證碼識別

前言今天看見一個關於Python進行驗證碼識別的文章，其中程式碼很短，但是感覺很有趣，加上最近也在學習一些簡單的Python知識，所以決定實驗一下準備工作 PIL版本選擇從網上搜索得知，PIL官方只有32位的安裝檔案，安裝時會提示找不到py

【python 文字識別】利用pytesseract庫進行圖片文字識別

關於中文的識別，效果比較好而且開源的應該就是Tesseract-OCR了，python 裡面也有一個包去使用Tesseract-OCR。這個包叫pytesseract 。安裝pytesseract pip install pytesseract 除此之外

Python2.7利用Tesseract進行中英文影象識別

垃圾啊背景環境: win8.1 64位 python2.7.13 本以為會很簡單，結果在配置環境這塊上花了很多時間，踩了幾個坑，最後自己看英文文件和log才解決問題。開啟網站 https://pypi.python.org/pypi/pytesse

關於Tesseract OCR 中文訓練識別小試（java呼叫Tess4j）

2017.9.20日小結最近接到是關於消防系統協議解析儀器的專案，目的是從協議解析儀器獲取有效資料，並解析資料（目的是不希望消防主機的資料資訊再傳給主機廠商而是最後能給自己收集呼叫）。由於各個消防器材廠商的協議不同，如果從串列埠讀取資料並一個個協

助力中文文字識別突破，美團公開首個真實場景招牌影象資料集

浪費了“黃金五年”的Java程式設計師，還有救嗎？ >>>

職場進行圖片文字識別的方法？

ima 我們金錢 water 找到通過但是幫助點擊在職場中很多公司都需要打字員，安排他們去整理一些圖片上的文字，或者是有關於打字工作。在以前很多打字員也是很好找工作的，但是現在不行了，因為在網上出現了一個可以識別文字的OCR文字識別軟件，可以輕松的幫助我們實現圖

基於Tesseract實現圖片文字識別

一.簡介　　 Tesseract是一個開源的文字識別【OCR】引擎，可通過Apache 2.0許可獲得。它可以直接使用，或者使用API從影象中提取列印的文字，支援多種語言。該軟體包包含一個ORC引擎【libtesseract】和一個命令列程式【tesseract】。Tesseract4添加了一個新

利用transformer進行中文文字分類（資料集是復旦中文語料）

利用TfidfVectorizer進行中文文字分類（資料集是復旦中文語料）利用RNN進行中文文字分類（資料集是復旦中文語料）利用CNN進行中文文字分類（資料集是復旦中文語料）和之前介紹的不同，重構了些程式碼，為了使整個流程更加清楚，

Python2.7利用Tesseract進行中英文圖像識別

配置指定 over gpo path from 網站總結 tesseract 背景環境: win8.1 64位 python2.7.13 本以為會很簡單，結果在配置環境這塊上花了很多時間，踩了幾個坑，最後自己看英文文檔和log才解決問題。打開網站 https

教你怎麽用微信小程序進行文字識別

搜索框是不是怎麽提取復制進行界面最簡找到如果我們想要摘錄書本上的文字，其實不一定非要手動打錄或者拿筆來摘抄。我們也可以用手機來進行文字識別，快速的將你想要的文字給識別提取出來，還能節省時間。那我們如何用手機來進行文字識別呢，最簡單的方法還是用微信小程序

Tesseract-OCR-03-圖片文字識別

目錄名 sso 搜集命令發出維護結果 rac class Tesseract-OCR-03-圖片文字識別本篇介紹使用 Tesseract-OCR 做圖片文字識別，識別手寫文字的時候，正確率能達到 90%，當訓練後正確率是極高的。這裏介紹的圖片文字識別，可以識別英文

Unity 影象識別接入Face++ 進行場景識別和文字識別

首先需要去Face++註冊一個賬號：（https://console.faceplusplus.com.cn/login）註冊非常簡單這裡就不講了。建立完我們登入後悔進入如下介面。接著我們去建立一個應用（也就是建立一個API Key，這個非常重要）如下：現在我們去找

如何在迅捷OCR文字識別軟件中進行圖片局部識別

識別位置分享圖片告訴 cto img 打開其它右下角相信很多朋友都知道OCR文字識別，通過OCR識別可以快速的將圖片文件中的文字識別出來轉換成文字格式，那如果是圖片局部識別的話又該如何去操作呢，下面就來為大家講解一下。　　使用工具：迅捷OCR文字識別軟件。　

圖片文字識別：Tesseract OCR庫在Python中基本使用

圖片識別：Tesseract OCR庫在Python中基本使用一.Tesseract - Xmind的筆記二. 程式碼案例：基本使用程式碼 import pytesseract from

C#用Tesseract進行OCR識別，可識別中英日韓所有語言

原始碼下載：https://download.csdn.net/download/horseroll/10739546 原始碼下包含部分語言包，所以檔案比較大先上效果圖。測試中文英文日語識別，其他語言也都行，只要下載相應的語言包，操作使用後面都有講 1

在迅捷OCR文字識別軟體中怎麼進行圖片區域性識別

　　怎麼進行圖片區域性識別呢？我們在觀看一些圖片的時候，有些圖片上的文字我們會需要將區域性文字識別提取出來，但是如何去識別呢，藉助圖片文字識別軟體就可以幫助實現了，下面為大家講解下具體的操作方法。　　使用工具：迅捷OCR文字識別軟體。　　1：先在電腦中將需要使用到的文字識別軟體下載裝好，接著儲存一張我

使用tesseract進行中文文字識別

簡介

效果圖

環境

安裝

測試程式碼

執行

評價

本文涉及程式碼

參考連結

相關推薦