1. 程式人生 > 實用技巧 >百度OCR介面使用詳細教程

百度OCR介面使用詳細教程

如何把圖片、PDF檔案中的文字進行識別提取,這個問題彷彿困擾了我們很多年,直到現在,當急需OCR功能時也沒有一個快速、高效且免費的線上工具或軟體能馬上拿來用。

前陣子的工作中正好有這個需求,我要把一篇PDF格式論文中的表格內容提取出來,供資料視覺化使用。這些表格包含少量文字和大量數字,說多不多,說少也不少,人工提取數字出錯率比較高。這時候!我又想找個“線上OCR工具”了!

一些號稱線上快速OCR的網頁,廣告橫飛且速度慢,上傳檔案後無反應,大都是標題黨騙點選賺廣告費的…… 個別看起來比較正經的OCR軟體,全都收費,由於我的需求不多,而且就用這麼一兩次,還是不願意花這個錢的。這時候我突然想起來一直飄在廣告位的「百度文字識別OCR」,萬一有試用可以白嫖一下呢。果然有免費額度贈送!

除通用場景文字識別外,還提供卡證文字識別、財務票據文字識別、醫療票據文字識別、汽車場景文字識別、教育場景文字識別、iOCR自定義模板文字識別等OCR服務場景,每個類別下還有細分的服務API,但除通用場景以外的大都不提供免費額度。

於是我試用了一下四種通用文字識別的API,按照官方的文件一步步來就可以了,這裡我簡化一下使用流程,僅需三步,十分鐘滿足你的OCR需求!

第一步,註冊一個百度賬號(https://passport.baidu.com/v2/?reg),如果已有請直接登陸。登入後點擊頁面中的「建立應用」:

“應用名稱”隨便取一個就好,介面選擇用預設就可以(通用文字識別服務已作預設勾選),應用歸屬選“個人”,最後簡單寫一下“應用描述”即可。

填寫完畢後,點選“立即建立”就可以了。

點選“返回應用列表”,點選“顯示”檢視所建立應用的 Secret Key:

至此,API 就申請好了。這裡申請到的 API Key 和 Secret Key 複雜存好,等下要在指令碼中呼叫。

第二步,準備好你的資料,圖片形式即可,以這張圖舉例(隨手拍一張書頁內容):

最後一步,修改指令碼中的 API_KEY 和 SECRET_KEY(第一步在應用列表裡複製來的),然後修改你需要進行識別的圖片路徑 file_content,改完這三個引數,就可以執行指令碼啦!

識別輸出的文字結果如下:

完整的程式碼指令碼可以參考官方指南(https://cloud.baidu.com/doc/OCR/s/dk3iqnq51

),也可以參考我分解的 Jupyter 版,關注公眾號「資料池塘」,回覆「百度OCR」即可獲取完整程式碼。

希望可以幫助到大家,祝順利!