通過Python呼叫QQAI做手寫OCR識別並匯出結果欄位到excel裡

阿新 • • 發佈：2018-12-01

有個需求：現場需要根據列印的表格手工填寫好內容，然後再在電腦上一個個錄入進去，費時費力，所以想是否可以通過程式把照片內需要的資料讀取出來並匯出到excel表格裡。

網上找了一下教程，目前百度AI和QQAI都有OCR識別的能力開放平臺，看評論騰訊稍微好一點，所以選擇了QQAI（其實半斤八兩，最後結果都不大好）

程式碼如下：

import qqai
from os import path
from win32com.client import Dispatch
import os
from datetime import datetime

def file_path(): 

    global path_this_file
    path_this_file = path.abspath('.') + "\\"
    global path_excel
    path_excel = path_this_file + '資訊匯出.xlsx'
    global path_pic_file
    path_pic_file = path_this_file + '照片'

def get_pic_name():
    pic_list = []
    for pic in os.listdir(path_pic_file):
        pic_path = 
 path_pic_file + '\\' + pic
        pic_list.append(pic_path)
    return pic_list

def HandwritingOCRImage(filename):
    robot = qqai.vision.ocr.HandwritingOCR(app_id, app_key)
    useless_list = ['登記表']
    value_list = []
    with open(filename, 'rb') as image_file:
        result = robot.run(image_file) 

    item_list = result['data']['item_list']
    for value in item_list:
        words= value['itemstring']
        if words in useless_list:
            continue
        else:
            value_list.append(words)
    return value_list

def get_useful_list(value_list):
    key_list = ['姓名', '性別', '出生日期', '國家/地區', '民族', '職業', '手機號碼', '固定電話', '證件型別', '證件有效期限', '證件號碼', '通訊地址', '郵編']
    useful_list = []
    for words in value_list:
        if words in key_list:
            key_index = value_list.index(words)
            next_index = key_index + 1
            if value_list[next_index] in key_list:
                useful_list.append('')
            else:
                if words == '證件號碼':
                    ID_NUM = "'" + str(value_list[next_index]) #這邊是為了避免科學計數法的問題
                    useful_list.append(ID_NUM)
                else:
                    useful_list.append(value_list[next_index])
        else:
            continue
    return useful_list

def put_into_excel(useful_list):
    xl = Dispatch("Excel.Application")
    xl.Visible = False  # True是顯示， False是隱藏
    xl.DisplayAlerts = 0
    excel_input = xl.Workbooks.Open(path_excel)
    sheet = excel_input.Sheets('Sheet1')
    max_row = sheet.UsedRange.Rows.Count
    values = len(useful_list)
    for i in range(values):
        sheet.Cells(max_row + 1, i + 1).Value = str(useful_list[i])
    excel_input.Save()
    excel_input.Close()
    xl.quit()

starttime = datetime.now()
"""騰訊AI開放平臺 圖片識別"""
app_id = '2110179251'
app_key = '******'
"""app_id , app_key 可以自己去騰訊AI開放平臺註冊，是免費的"""

file_path()
pic_list = get_pic_name()
for filename in pic_list:
    value_list =HandwritingOCRImage(filename)
    useful_list = get_useful_list(value_list)
    put_into_excel(useful_list)
endtime = datetime.now()
total_time = (endtime - starttime).seconds
print(">>>成功錄入資訊{}條，總共耗時{}秒！".format(len(pic_list),total_time))

我模擬的表格是這樣的：

在這裡插入圖片描述

模擬填寫是這樣：
在這裡插入圖片描述

但最後結果卻是：
在這裡插入圖片描述

結論和經驗：
1、目前OCR識別因為手工填寫的不規範，所以實際使用效果並不好；
2、如果要改善這個情況，就勢必要對填寫模板進行進一步優化，同時程式中需要考慮模板中每一個格子的大小等；
3、儘可能減少“_”、“\”之類的情況；
4、1和\的誤差概率會比較大；
5、更好的解決辦法：語音識別並錄入，當然這又是另一個專案了。

通過Python呼叫QQAI做手寫OCR識別並匯出結果欄位到excel裡

有個需求：現場需要根據列印的表格手工填寫好內容，然後再在電腦上一個個錄入進去，費時費力，所以想是否可以通過程式把照片內需要的資料讀取出來並匯出到excel表格裡。網上找了一下教程，目前百度AI和QQAI都有OCR識別的能力開放平臺，看評論騰訊稍微好一點，所以選擇了QQAI（其實半斤八兩

Python做手寫數字識別

最近在學neural networks and deeplearning這本書，也跟著做了一下實驗，這本書的地址是http://neuralnetworksanddeeplearning.com/chap1.html，當然網路上也有翻譯版的，可以下載看。由於剛開始學Python，難免會遇到很

Python呼叫百度手寫識別API，將手寫筆記圖片轉換成文字

事件起因家裡人有十幾頁手寫筆記想要轉成文字格式。網上搜了一下發現了百度有手寫文字圖片識別的api，於是拿來試試。雖然最終效果並不理想，還是當做一次測試記錄一下。手裡有手寫筆記想要識別一下，也可以直接參考下面程式碼試試。程式碼程式碼部分

通過攝像頭捕獲影象用tensorflow做手寫數字識別

花了一晚上搞好了攝像頭捕獲影象做手寫數字識別，程式碼基於tensorflow的mnist程式碼實現，作為學習tensorflow的一個過程。先在mnist資料集上訓練好網路，並儲存模型。 import numpy as np import tensorflow as tf

用 KNN 做手寫數字識別

用 KNN 做手寫數字識別目錄用 KNN 做手寫數字識別 1. KNN的原理 2. KNN實現手寫數字識別過程作為一個小白，寫此文章主要是為了自己記錄，方便回過頭來查詢！本文主要參考ApacheCN（專注於優秀專案維護的開源組織）中MachineL

使用sklearn做手寫數字識別模型：AdaBoostClassifier

1.載入資料集導包 import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,cross_validation,ensemble def load_classifica

[TensorFlow深度學習入門]實戰十一·用雙向BiRNN(LSTM)做手寫數字識別準確率99%+

[TensorFlow深度學習入門]實戰十一·用雙向BiRNN(LSTM)做手寫數字識別準確率99%+ 此博文是我們在完成實戰五·用RNN(LSTM)做手寫數字識別的基礎上使用BiRNN(LSTM)結構，進一步提升模型的準確率，1000steps準確率達到99%。首先我們先

[TensorFlow深度學習入門]實戰五·用RNN(LSTM)做手寫數字識別準確率98%+

參考部落格地址，修復了一個小Bug，收斂速度和準確率都略微提升。使用此模型在Kaggle比賽準確率98%+ import os os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE" import time import tensorflow as tf im

Python(TensorFlow框架)實現手寫數字識別系統

手寫數字識別演算法的設計與實現本文使用python基於TensorFlow設計手寫數字識別演算法，並程式設計實現GUI介面，構建手寫數字識別系統。這是本人的本科畢業論文課題，當然，這個也是機器學習的基本問題。本博文不會以論文的形式展現，而是以程式設計實戰

Python實現knn演算法手寫數字識別

KNN實現手寫數字識別 1 - 匯入模組 import numpy as np import matplotlib.pyplot as plt from PIL import Image %matplotlib inline 2 - 匯入資

TensorFlow——Mnist手寫數字識別並可視化實戰教程（一）

要點：該教程為深度學習tensorflow框架mnist手寫數字識別。實戰教程分為（一）（二）（三）分別從tensorflow和MATLAB雙角度來實現。筆者資訊：Next_Legend Q

caffe的python接口學習（4）mnist實例手寫數字識別

數字 interval with lac EDA 變化 mode 指數 lB 以下主要是摘抄denny博文的內容，更多內容大家去看原作者吧　　一數據準備　　準備訓練集和測試集圖片的列表清單; 　　二導入caffe庫，設定文件路徑　　 # -*- coding: u

python學習日記7tensorflow-手寫數字分類

參考資料： 1、tensorflow中文社群 mnist機器學習入門（分類手寫數字） http://tensorfly.cn/tfdoc/tutorials/mnist_beginners.html 2、英文版mnist機器學習入門（分類服裝圖片） https://tensorflow.

【深度學習】python實現簡單神經網路以及手寫數字識別案例

前言 \quad \qu

[分享] Python實現的基於深度學習的手寫數字識別演算法

本文將採用深度學習中的卷積神經網路來訓練手寫數字識別模型。使用卷積神經網路建立合理的模型結構，利用卷積層中設定一定數目的卷積核（即濾波器），通過訓練資料使模型學習到能夠反映出十個不同手寫提數字特徵的卷積核權值，最後通過全連線層使用softmax函式給出預測數字圖對應每種數字可能性的概率多少。本文以學習基於

【Python例項第20講】手寫數字識別問題的K-Means聚類

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）在這個例子裡，我們在手寫數字識別資料集上，比較 K-means 聚類演算法對於不同的初始化策略對執行時間和結果質量的影響。我們也利用不同的聚類質量測度判別聚類標籤對於參考標籤的擬合優度。這裡使

python神經網路解決手寫識別問題演算法和程式碼

1.演算法 2.程式碼 import numpy # scipy.special for the sigmoid function expit() import scipy.special # library for plotting arrays import matplotlib.

windows vs2013 通過python呼叫tensorflow，相應的錯誤處理

1.python安裝從python官網下載安裝即可，注意需要下載x86_64版本（64位）。 2.在python中安裝tensorflow cpu版本 pip3 install tensorflow 3.python檔案 import sys import ten

【4】caffe的python介面學習：mnist例項---手寫數字識別

一、資料準備官網提供的mnist資料並不是圖片，但我們以後做的實際專案可能是圖片。因此有些人並不知道該怎麼辦。在此我將mnist資料進行了轉化，變成了一張張的圖片，我們練習就從圖片開始。下面是轉化的程式碼。 import numpy as np import struc

[TensorFlow深度學習入門]實戰六·用CNN做Kaggle比賽手寫數字識別準確率99%+

[TensorFlow深度學習入門]實戰六·用CNN做Kaggle比賽手寫數字識別準確率99%+ 參考部落格地址本部落格採用Lenet5實現，也包含TensorFlow模型引數儲存與載入參考我的博文，實用性比較好。在訓練集準確率99.85%，測試訓練集準確率99%+。訓練

通過Python呼叫QQAI做手寫OCR識別並匯出結果欄位到excel裡

相關推薦