1. 程式人生 > >用Python實現最簡單的文字識別:基於百度雲文字識別API

用Python實現最簡單的文字識別:基於百度雲文字識別API

Python版本:3.6.5

百度雲提供的文字識別技術,準確率還是非常高的,而且每天還有5w次免費的呼叫量,對於用來學習或者偶爾拿來用用,已經完全足夠了。文章提供一個模板,稍加修改就可以直接套用。註釋中提到必須輸入的地方,你都正確地輸入了的話,就可以完成一次簡單的文字識別了。

# -*- coding: utf-8 -*-

import requests
import base64

class Orc_main():
    def orc_look(self, path):
        access_token = ""  # 自行註冊百度雲賬號,即可獲取自己專屬的access_token,必須輸入!
        with open(path, 'rb') as f:
            image_data = f.read()
            base64_ima = base64.b64encode(image_data)
            data = {
                'image': base64_ima
            }
            headers = {
                'Content-Type': 'application/x-www-form-urlencoded'
            }
            url = "https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic?access_token=" + str(access_token)
            r = requests.post(url, params=headers, data=data).json()
            for word in r['words_result']:
                yield word['words']
            # 返回一個生成器,可自行修改

if __name__ == '__main__':
    om = Orc_main()
    path = ""  # 圖片檔案路徑,必須輸入!
    words = om.orc_look(path) 
    # 輸出文字(返回結果)
    for word in words:
        print(word)