應用例項-圖片文字識別( ( Application Example-Photo OCR) )

問題描述和流程圖Problem Description and Pipeline

影象文字識別應用所作的事是，從一張給定的圖片中識別文字。這比從一份掃描文件中
識別文字要複雜的多

為了完成這樣的工作，需要採取如下步驟：

文字偵測（Text detection）——將圖片上的文字與其他環境物件分離開來
字元切分（Character segmentation）——將文字分割成一個個單一的字元
字元分類（Character classification）——確定每一個字元是什麼可以用任務流程圖來表

達這個問題，每一項任務可以由一個單獨的小隊來負責解決：

滑動視窗Sliding Windows

滑動視窗是一項用來從影象中抽取物件的技術。假使我們需要在一張圖片中識別行人，
首先要做的是用許多固定尺寸的圖片來訓練一個能夠準確識別行人的模型。然後我們用之前
訓練識別行人的模型時所採用的圖片尺寸在我們要進行行人識別的圖片上進行剪裁，然後
將剪裁得到的切片交給模型，讓模型判斷是否為行人，然後在圖片上滑動剪裁區域重新進行
剪裁，將新剪裁的切片也交給模型進行判斷，如此迴圈直至將圖片全部檢測完。

一旦完成後，我們按比例放大剪裁的區域，再以新的尺寸對圖片進行剪裁，將新剪裁的
切片按比例縮小至模型所採納的尺寸，交給模型進行判斷，如此迴圈。

滑動視窗技術也被用於文字識別，首先訓練模型能夠區分字元與非字元，然後，運用滑

動視窗技術識別字符，一旦完成了字元的識別，我們將識別得出的區域進行一些擴充套件，然後
將重疊的區域進行合併。接著我們以寬高比作為過濾條件，過濾掉高度比寬度更大的區域
（認為單詞的長度通常比高度要大）。下圖中綠色的區域是經過這些步驟後被認為是文字的
區域，而紅色的區域是被忽略的。

以上便是文字偵測階段。下一步是訓練一個模型來完成將文字分割成一個個字元的任
務，需要的訓練集由單個字元的圖片和兩個相連字元之間的圖片來訓練模型。

模型訓練完後，我們仍然是使用滑動視窗技術來進行字元識別。

以上便是字元切分階段。最後一個階段是字元分類階段，利用神經網路、支援向量機
或者邏輯迴歸演算法訓練一個分類器即可。

獲取大量資料和人工資料Getting Lots of Data and Artificial Data

如果我們的模型是低方差的，那麼獲得更多的資料用於訓練模型，是能夠有更好的效果
的。問題在於，我們怎樣獲得資料，資料不總是可以直接獲得的，我們有可能需要人工地創
造一些資料。

以我們的文字識別應用為例，我們可以字型網站下載各種字型，然後利用這些不同的字
體配上各種不同的隨機背景圖片創造出一些用於訓練的例項，這讓我們能夠獲得一個無限大
的訓練集。這是從零開始創造例項。

另一種方法是，利用已有的資料，然後對其進行修改，例如將已有的字元圖片進行一些
扭曲、旋轉、模糊處理。只要我們認為實際資料有可能和經過這樣處理後的資料類似，我們
便可以用這樣的方法來創造大量的資料。

有關獲得更多資料的幾種方法：

人工資料合成
手動收集、標記資料
眾包

上限分析：哪部分管道的接下去做Ceiling Analysis_ What Part of the Pipeline to Work on Next

在機器學習的應用中，我們通常需要通過幾個步驟才能進行最終的預測，我們如何能夠
知道哪一部分最值得我們花時間和精力去改善呢？這個問題可以通過上限分析來回答。

回到我們的文字識別應用中，我們的流程圖如下：

流程圖中每一部分的輸出都是下一部分的輸入，上限分析中，我們選取一部分，手工提
供 100%正確的輸出結果，然後看應用的整體效果提升了多少。假使我們的例子中總體效果
為 72%的正確率。

如果我們令文字偵測部分輸出的結果 100%正確，發現系統的總體效果從 72%提高到了
89%。這意味著我們很可能會希望投入時間精力來提高我們的文字偵測部分。

接著我們手動選擇資料，讓字元切分輸出的結果 100%正確，發現系統的總體效果只提
升了 1%，這意味著，我們的字元切分部分可能已經足夠好了。

最後我們手工選擇資料，讓字元分類輸出的結果 100%正確，系統的總體效果又提升了
10%，這意味著我們可能也會應該投入更多的時間和精力來提高應用的總體表現。

不洗澡的鯨魚

</div>

<div class=

ml-10-2-應用例項-圖片文字識別( ( Application Example-Photo OCR) )

應用例項-圖片文字識別( ( Application Example-Photo OCR) )

問題描述和流程圖Problem Description and Pipeline

滑動視窗Sliding Windows

獲取大量資料和人工資料Getting Lots of Data and Artificial Data

上限分析：哪部分管道的接下去做Ceiling Analysis_ What Part of the Pipeline to Work on Next

ml-10-2-應用例項-圖片文字識別( ( Application Example-Photo OCR) )

Python呼叫百度OCR實現圖片文字識別的示例程式碼

c++ 呼叫opencv+tesseract做圖片文字識別

linux系統如何使用ocr圖片文字識別

視訊教程：圖片文字識別多執行緒多工並行OCR,高效高速圖片轉文字支援輸出Excel表格

最後 1 天！1 元 1 萬次通用文字識別 / 網路圖片文字識別，文字識別 OCR 特惠促銷

OCR圖片文字識別

Python3使用騰訊雲文字識別(騰訊OCR)提取圖片中的文字內容例項詳解

python 利用百度API識別圖片文字【2】（多執行緒版）

python cv2在驗證碼識別中應用例項解析

文字識別還能這樣用？通過Python做文字識別到破解圖片驗證碼

使用tess4j完成身份證和營業執照圖片的文字識別

VBA呼叫百度智慧雲的文字識別獲取圖片中的數字

python利用pytesseract 實現本地識別圖片文字【3】（多執行緒）

python 利用百度API批量識別圖片文字【1】

python利用pytesseract 實現本地識別圖片文字

python 利用百度API識別圖片文字（多執行緒版）

谷歌 Chrome OS 將推出新功能，掃描應用支援 PDF OCR 文字識別

C#用百度OCR識別圖片文字

iOS 在系統相簿呼叫自己的應用編輯圖片 - Photo Editing Extension

ml-10-2-應用例項-圖片 文字識別( ( Application Example-Photo OCR) )

應用例項-圖片 文字識別( ( Application Example-Photo OCR) )

問題描述和流程圖Problem Description and Pipeline

滑動視窗Sliding Windows

獲取大量資料和人工資料Getting Lots of Data and Artificial Data

上限分析：哪部分管道的接下去做Ceiling Analysis_ What Part of the Pipeline to Work on Next

相關推薦

ml-10-2-應用例項-圖片文字識別( ( Application Example-Photo OCR) )

應用例項-圖片文字識別( ( Application Example-Photo OCR) )