python實現ocr

阿新 • • 發佈：2018-12-01

python實現ocr

前期準備

在這個階段主要準備整個小程式的結構，既然要實現ocr，那麼輸入就是一張圖片，而圖片這裡採用螢幕截圖的方式獲得，輸出是文字，這裡採用搜狗的ocr介面，我們把截好的圖片傳到搜狗ocr介面中，然後把返回的文字作為輸出即可。

由於想做一個小程式，所以要為程式做GUI，這裡採用tkinter編制GUI介面。

介面編寫

介面主要就準備一個窗體，裡面有選單，給出OCR功能。

在這裡插入圖片描述
之後我們點選選單，則啟動一個截圖功能，在截圖完成後，我們就把截得的圖片傳入ocr介面並返回文字到主窗體中。

在這裡插入圖片描述

主面板的編寫則直接使用tkinter建立選單等

	root = Tk() 
	root.title("小新的OCR")
	# 建立一個頂級選單
    menubar = Menu(root)
    # 建立一個下拉選單“檔案”，然後將它新增到頂級選單中
    filemenu = Menu(menubar, tearoff=False)
    filemenu.add_command(label="OCR", command=buttonCaptureClick, accelerator='Ctrl+N')
    filemenu.add_command(label="幫助",command=helpClick)
    filemenu.add_command(label="退出", command=root.quit)
    menubar.add_cascade(label="操作", menu=filemenu)
    # 顯示選單
    root.config(menu=menubar)
    root.bind_all("<Control-d>", lambda event: buttonCaptureClick())
    #啟動訊息主迴圈
    root.mainloop()

這樣變回產生一個窗體，使用者可以和這個窗體進行互動，你可以點選選單，然後找到其子選單中的OCR一項，點選它便會呼叫一個buttonCaptureClick的函式，這個函式就來產生截圖，並且儲存截圖。

截圖功能實現

截圖功能我也是參考網上的內容，原理就是先把整個螢幕給捕捉到，然後監聽滑鼠事件，當滑鼠左邊按下則作為截圖的左頂點，滑鼠左鍵松下則最為截圖的右底點，這樣我們截圖區域就出來了，然後進行儲存即可。

#用來顯示全螢幕截圖並響應二次截圖的視窗類
class MyCapture:
    def __init__(self, png):
        #變數X和Y用來記錄滑鼠左鍵按下的位置
        self.X = tkinter.IntVar(value=0)
        self.Y = tkinter.IntVar(value=0)
        #螢幕尺寸
        screenWidth = root.winfo_screenwidth()
        screenHeight = root.winfo_screenheight()
        #建立頂級元件容器
        self.top = tkinter.Toplevel(root, width=screenWidth, height=screenHeight)
        #不顯示最大化、最小化按鈕
        self.top.overrideredirect(True)
        self.canvas = tkinter.Canvas(self.top,bg='white', width=screenWidth, height=screenHeight)
        #顯示全屏截圖，在全屏截圖上進行區域截圖
        self.image = tkinter.PhotoImage(file=png)
        self.text =""
        self.canvas.create_image(screenWidth//2, screenHeight//2, image=self.image)
        #滑鼠左鍵按下的位置
        def onLeftButtonDown(event):
            self.X.set(event.x)
            self.Y.set(event.y)
            #開始截圖
            self.sel = True
        self.canvas.bind('<Button-1>', onLeftButtonDown)
        #滑鼠左鍵移動，顯示選取的區域
        def onLeftButtonMove(event):
            if not self.sel:
                return
            global lastDraw
            try:
                #刪除剛畫完的圖形，要不然滑鼠移動的時候是黑乎乎的一片矩形
                self.canvas.delete(lastDraw)
            except Exception as e:
                pass
            lastDraw = self.canvas.create_rectangle(self.X.get(), self.Y.get(), event.x, event.y, outline='black')
        self.canvas.bind('<B1-Motion>', onLeftButtonMove)
        #獲取滑鼠左鍵擡起的位置，儲存區域截圖
        def onLeftButtonUp(event):
            self.sel = False
            try:
                self.canvas.delete(lastDraw)
            except Exception as e:
                pass
            sleep(0.1)
            #考慮滑鼠左鍵從右下方按下而從左上方擡起的截圖
            left, right = sorted([self.X.get(), event.x])
            top, bottom = sorted([self.Y.get(), event.y])
            pic = ImageGrab.grab((left+1, top+1, right, bottom))
            fileName ="temp.jpg"
            pic.save(fileName)
            self.text = get_text(fileName)
            #關閉當前視窗
            self.top.destroy()
        self.canvas.bind('<ButtonRelease-1>', onLeftButtonUp)
#讓canvas充滿視窗，並隨視窗自動適應大小
        self.canvas.pack(fill=tkinter.BOTH, expand=tkinter.YES)
 #開始截圖
def buttonCaptureClick():
    #最小化主視窗
#     root.state('icon')
    root.withdraw()
    sleep(0.4)
    filename = 'temp.png'
    #grab()方法預設對全螢幕進行截圖
    im = ImageGrab.grab()
    im.save(filename)
    im.close()
    #顯示全螢幕截圖
    w = MyCapture(filename)
    root.wait_window(w.top)
    #截圖結束，恢復主視窗，並刪除臨時的全螢幕截圖檔案
    root.update()
    root.deiconify()
    text1.config(state = NORMAL)
    text1.delete(0.0,END)
    text1.insert('insert',w.text)
    text1.config(state = DISABLED)
    text1.pack()
    os.remove(filename)

OCR實現

因為OCR其實是採用了搜狗的介面，所以需要做的工作也不是很多，只需要把我們的圖片傳入即可。

def get_text(img_path):
    print("")
    img = img_path # 圖片路徑
    files = {"pic_path": open(img, "rb")}  # files # 類似data資料
    url = "http://pic.sogou.com/pic/upload_pic.jsp"  # post的url
    keywords = requests.post(url, files=files).text  # requests 提交圖片
    url = "http://pic.sogou.com/pic/ocr/ocrOnline.jsp?query=" + keywords  # keywords就是圖片url此方式為get請求
    ocrResult = requests.get(url).json()  # 直接轉換為json格式
    
    contents = ocrResult['result']  # 類似字典 把result的value值取出來 是一個list然後裡面很多json就是識別的文字
    text = ""
    for content in contents:  # 遍歷所有結果
        text+=(content['content'].strip()+'\n')  # strip去除空格 他返回的結果自帶一個換行
    return text

內容顯示

內容顯示是在截圖結束後我們把ocr識別的內容儲存起來

self.text = get_text(fileName)

然後再顯示到主窗體上

    text1.config(state = NORMAL)
    text1.delete(0.0,END)
    text1.insert('insert',w.text)
    text1.config(state = DISABLED)
    text1.pack()

總結

雖然是一個完整的專案，但是其中的很多模組其實都是借用其他人的模組，而我做的只是把他們結合起來做成一個小專案，所以是站在巨人的肩膀上開發。

參考：

https://cloud.tencent.com/developer/article/1097904
https://morvanzhou.github.io/tutorials/python-basic/tkinter/
https://www.52pojie.cn/thread-708177-1-1.html

python實現ocr

python實現ocr 前期準備在這個階段主要準備整個小程式的結構，既然要實現ocr，那麼輸入就是一張圖片，而圖片這裡採用螢幕截圖的方式獲得，輸出是文字，這裡採用搜狗的ocr介面，我們把截好的圖片傳到搜狗ocr介面中，然後把返回的文字作為輸出即可。由於想做一個小程式，所以

python實現ocr識別文字

首先安裝模組PIL pip3 install PIL 再裝tesseract apt-get install tesseract-ocr 最後裝pytesseract pip3 install pytesseract from PIL import Image

PYTHON實現DFS算法

python clas gray pytho logs urn turn white blog 1 class Vertice: 2 def __init__(self,index): 3 self.no = index 4 self.colo

python實現QQ機器人(自己主動登錄，獲取群消息，發送群消息)

keep fine 繼續 fill iss data while [0 ssi 一次偶然的機會我看見了一個群裏的一個QQ號總是依據你所發的消息自己主動回復，當時非常感覺到奇妙。我知道能夠模擬登錄站點，沒想到居然也能模擬登錄QQ，首先自己想到的就是怎樣實現模擬登錄PC端的

【機器學習算法-python實現】PCA 主成分分析、降維

pre gre text iss 主成分分析 int 找到 nts 導入 1.背景 PCA(Principal Component Analysis)，PAC的作用主要是減少數據集的維度，然後挑選出基本的特征。 PCA的主要思想是移動坐標軸，找

Python實現最小均方算法(lms)

期望值數學樣本 lms算法跟Rosenblatt感知器相比，主要區別就是權值修正方法不一樣。lms采用的是批量修正算法，Rosenblatt感知器使用的是單樣本修正算法。兩種算法都是單層感知器，也只適用於線性可分的情況。詳細代碼及說明如下：‘‘‘ 算法：

python實現查詢sql後導出到excel並發送郵件

save epo mode 統計 -- success filename receive odi #coding=utf-8import sysimport xlwtimport pymysql as MySQLdb #這裏是python3 如果你是python2.x的

python實現同服站點地址獲取

.cn class return 字符串 ... urlencode 一個 req exc 說明：程序使用http://s.tool.chinaz.com/same此站點查詢的結果。使用python簡單的實現抓取結果先隨便查詢一個結果，抓包分析，如圖：

使用python 實現icmp測試主機存活性

python icmp代碼： #!/usr/bin/env python#coding:utf-8import os, sys, socket, struct, select, time# From /usr/include/linux/icmp.h; your milage may vary.IC

python基礎一 ------順序結構隊列的python實現

尾插 style 插入允許 nbsp 隊列 python實現 odin app 隊列：先進先出的線性表（FIFO）,只允許在一段插入並在另一端取出以下是python實現 1 #-*-coding:utf-8-*- 2 #順序存儲隊列的python實現 3 4

Python實現購物車小程序

輸入密碼 print 文件的 enc break aps ast utf log 開發環境，win7、Python3.6、Pycharm社區版2017 作業需求：購物車程序：1、啟動程序後，輸入用戶名密碼後，如果是第一次登錄，讓用戶輸入工資，然後打印商品列表 #再次

二叉查找樹python實現

treenode pri one val name turn 是否 find pan 1. 二叉查找樹的定義：左子樹不為空的時候。左子樹的結點值小於根節點，右子樹不為空時，右子樹的結點值大於根節點。左右子樹分別為二叉查找樹 2. 二叉查找樹的最左邊的結點即為最小值，要

【Python】決策樹的python實現

uia bmp say 不知道 times otto outlook lru bgm 【Python】決策樹的python實現 2016-12-08 數據分析師Nieson 1. 決策樹是什麽? 簡單地理解，就是根據一些 feature 進行分類，每個節點提一個問

python 實現60甲子

end Coding [] color pre style pan pytho spa #!/usr/local/sbin/python3 # -*- coding:utf-8 -*- tiangan = [‘甲‘,‘乙‘,‘丙‘,‘丁‘,‘戊‘,‘己‘,‘庚‘,‘辛‘

zabbix使用Python實現監控MongoDB副本集狀態

python zabbix mongodb pymongo 公司有 Windows 和 Linux 服務器，都搭建了 MongoDB 副本集，並且都要在 zabbix 平臺中實現監控。Linux 系統直接使用 shell 腳本即可實現，但是 Windows 系統的不太好實現，我這裏使用

Logistic回歸模型和Python實現

logistic rip ast 步長 glm 常見 gist nes sel 回歸分析是研究變量之間定量關系的一種統計學方法，具有廣泛的應用。 Logistic回歸模型線性回歸先從線性回歸模型開始，線性回歸是最基本的回歸模型，它使用線性函數描述兩個變量之間的關系，將連

機器學習Python實現AdaBoost

出了 .py learn tle 基礎向量 adsi pad del adaboost是boosting方法多個版本號中最流行的一個版本號，它是通過構建多個弱分類器。通過各個分類器的結果加權之後得到分類結果的。這裏構建多個分類器的過程也是有講究的，通過關註之前構建的分

機器學習：Python實現聚類算法(三)之總結

.fig ask class ted ssi 缺點處理 blob ron 考慮到學習知識的順序及效率問題，所以後續的幾種聚類方法不再詳細講解原理，也不再寫python實現的源代碼，只介紹下算法的基本思路，使大家對每種算法有個直觀的印象，從而可以更好的理解函數中

python實現修改配置文件

odi 並且 mode info ack hide 配置 rdf 讀取 python實現修改配置文件原配置文件 global log 127.0.0.1 local2 daemon maxconn 256

數據庫並行讀取和寫入(Python實現)

ews for rom join() rgs one val connect ssi max_process = 16 #最大進程數 def read_SQL_write(r_host,r_port,r_user,r_passwd,r_db,r_charset,w_host

python實現ocr