python利用pytesseract 實現本地識別圖片文字【3】（多執行緒）

阿新 • • 發佈：2020-12-13

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import glob
from os import path
import os
import pytesseract
from PIL import Image
from queue import Queue
import threading
import datetime
import cv2

def convertimg(picfile, outdir):
    '''調整圖片大小，對於過大的圖片進行壓縮
    picfile:    圖片路徑
    outdir：    圖片輸出路徑
     
'''
    img = Image.open(picfile)
    width, height = img.size
    while (width * height > 4000000):  # 該數值壓縮後的圖片大約 兩百多k
        width = width // 2
        height = height // 2
    new_img = img.resize((width, height), Image.BILINEAR)
    new_img.save(path.join(outdir, os.path.basename(picfile)))


def baiduOCR(ts_queue):
     
while not ts_queue.empty():
        picfile = ts_queue.get()
        filename = path.basename(picfile)
        outfile = 'D:\Study\pythonProject\scrapy\IpProxy\port_zidian.txt'
        img = cv2.imread(picfile, cv2.IMREAD_COLOR)
        print("正在識別圖片：\t" + filename)
        message = pytesseract.image_to_string(img,lang = ' 
eng')
        message = message.replace('', '')
        message = message.replace('\n', '')
        # message = client.basicAccurate(img)   # 通用文字高精度識別，每天 800 次免費
        #print("識別成功！"))
        try:
            filename1 = filename.split('.')[0]
            filename1 = ''.join(filename1)
            with open(outfile, 'a+') as fo:
                fo.writelines('\'' + filename1 + '\'' + ':' + message + ',')
                fo.writelines('\n')
                # fo.writelines("+" * 60 + '\n')
                # fo.writelines("識別圖片：\t" + filename + "\n" * 2)
                # fo.writelines("文字內容：\n")
                # # 輸出文字內容
                # for text in message.get('words_result'):
                #     fo.writelines(text.get('words') + '\n')
                # fo.writelines('\n' * 2)
            os.remove(filename)
            print("識別成功！")
        except:
            print('識別失敗')



        print("文字匯出成功！")
        print()
def duqu_tupian(dir):
    ts_queue = Queue(10000)

    outdir = dir
    # if path.exists(outfile):
    #     os.remove(outfile)
    if not path.exists(outdir):
        os.mkdir(outdir)
    print("壓縮過大的圖片...")
    # 首先對過大的圖片進行壓縮，以提高識別速度，將壓縮的圖片儲存與臨時資料夾中
    try:
        for picfile in glob.glob(r"D:\Study\pythonProject\scrapy\IpProxy\tmp\*"):
            convertimg(picfile, outdir)
        print("圖片識別...")
        for picfile in glob.glob("tmp1/*"):
            ts_queue.put(picfile)
            #baiduOCR(picfile, outfile)
            #os.remove(picfile)
        print('圖片文字提取結束！文字輸出結果位於檔案中。' )
        #os.removedirs(outdir)
        return ts_queue
    except:
        print('失敗')

if __name__ == "__main__":

    start = datetime.datetime.now().replace(microsecond=0)
    t = 'tmp1'
    s = duqu_tupian(t)
    threads = []
    try:
        for i in range(100):
            t = threading.Thread(target=baiduOCR, name='th-' + str(i), kwargs={'ts_queue': s})
            threads.append(t)
        for t in threads:
            t.start()
        for t in threads:
            t.join()
        end = datetime.datetime.now().replace(microsecond=0)
        print('刪除耗時：' + str(end - start))
    except:
        print('識別失敗')

實測速度慢，但用了多執行緒明顯提高了速度，但準確度稍低，同樣高清圖片，90百分識別率。還時不時出現亂碼文字，亂空格，這裡展現不了，自己實踐吧，重點免費的，隨便識別，通向100張圖片，用時快6分鐘了，速度慢了一倍，但是是免費的，挺不錯的了。

python利用pytesseract 實現本地識別圖片文字【3】（多執行緒）

#!/usr/bin/env python3 # -*- coding: utf-8 -*- import glob from os import path import os import pytesseract

python 利用百度API識別圖片文字【2】（多執行緒版）

#!/usr/bin/env python3 # -*- coding: utf-8 -*- \"\"\" Created on Tue Jun 12 09:37:38 2018 利用百度api實現圖片文字識別

python利用pytesseract 實現本地識別圖片文字

#!/usr/bin/env python3 # -*- coding: utf-8 -*- import glob from os import path import os import pytesseract

python 利用百度API批量識別圖片文字【1】

#!/usr/bin/env python3 # -*- coding: utf-8 -*- \"\"\" Created on Tue Jun 12 09:37:38 2018 利用百度api實現圖片文字識別

python 利用百度API識別圖片文字（多執行緒版）

#!/usr/bin/env python3 # -*- coding: utf-8 -*- \"\"\" Created on Tue Jun 12 09:37:38 2018 利用百度api實現圖片文字識別

【轉】Java多執行緒實現的四種方式

Java多執行緒實現方式主要有四種：繼承Thread類實現Runnable介面、實現Callable介面通過FutureTask包裝器來建立Thread執行緒、

c#實現每隔一段時間執行程式碼（多執行緒）

方法一：呼叫執行緒執行方法，在方法中實現死迴圈，每個迴圈Sleep設定時間；

Python 下載m3u8 （簡易版多執行緒）

import requests import os import datetime import threading class xiazai(): def __init__(self,url): self.url = url

【Java多執行緒】使用多執行緒計算階乘累加 1！+2！+3！+...+19!+20!。其中一個執行緒計算階乘，另一執行緒實現累加並輸出結果

（如發現問題，請幫忙指出，謝謝）使用多執行緒計算階乘累加 1！+2！+3！+…+19!+20!。其中一個執行緒計算階乘，另一執行緒實現累加並輸出結果。

【原創】Java Graphic2D文字繪製換行（多行繪製），註釋詳細

技術標籤：javajava 專案需求就是要在圖片上動態繪製文字內容，但是文字內容會很長，可能會換行，原生的Java的Graphics2D.drawString()並沒有換行的方法，只能自己寫。本來想通過文字總長度/總文字數計算行數的，

利用Qt訊號槽和std::function將任務放在主執行緒（GUI執行緒）執行

宣告一個新增任務介面，訊號和槽函式各兩個（返回型別void和非void）。新增任務介面的引數為std::function型別。訊號與槽函式的第一個引數是std::function型別的任務，第二個引數則為任務的返回值。

python opencv pytesseract 驗證碼識別的實現

一、環境配置需要 pillow 和 pytesseract 這兩個庫，pip install 安裝就好了。 install pillow -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

python利用tkinter實現圖片格式轉換的示例

程式碼 import os from PIL import Image import tkinter import tkinter.filedialog import tkinter.messagebox

人臉識別技術概要 (利用 Dlib 實現人臉識別)

簡介人臉識別技術是一種生物識別技術，可以用來確認使用者身份。人臉識別技術相比於傳統的身份識別技術有很大的優勢，主要體現在方便性上。傳統的身份認證方式諸如：密碼、PIN碼、射頻卡片、口令、指紋等，需要使用

Python利用多執行緒同步鎖實現多視窗訂票系統(推薦)

利用Python實現多視窗訂票系統，利用 threading.Lock() 避免出現一票多賣，無票也賣的情況，並規範化輸出情況。

使用Python paramiko模組利用多執行緒實現ssh併發執行操作

1.paramiko概述 ssh是一個協議，OpenSSH是其中一個開源實現，paramiko是Python的一個庫，實現了SSHv2協議(底層使用cryptography)。

Python+Tensorflow+CNN實現車牌識別的示例程式碼

一、專案概述本次專案目標是實現對自動生成的帶有各種噪聲的車牌識別。在噪聲干擾情況下，車牌字元分割較困難，此次車牌識別是將車牌7個字元同時訓練，字元包括31個省份簡稱、10個阿拉伯數字、24個英文字母（\'O\'和

Python3 利用face_recognition實現人臉識別的方法

前言之前實踐了下face++線上人臉識別版本，這回做一下離線版本。github 上面有關於face_recognition的相關資料，本人只是做個搬運工，對其中的一些內容進行搬運，對其中一些例子進行實現。

python opencv+pytesseract 驗證碼識別

文章目錄一、環境配置二、驗證碼識別例項1 例項2 例項3 一、環境配置需要 pillow 和 pytesseract 這兩個庫，pip install 安裝就好了。

python利用paramiko實現交換機巡檢的示例

直接上程式碼 #-*- coding:UTF-8 -*- import paramiko import time starttime = time.strftime(\'%Y-%m-%d %T\')

python利用pytesseract 實現本地識別圖片文字【3】（多執行緒）

相關推薦