python學習----網頁圖片文字識別(簡單)

阿新 • • 發佈：2018-11-14

在接觸python後想對圖片進行一些處理 python實現的程式碼很簡單但是關鍵在於一些包的匯入

我使用的python 軟體是 pycharm 可以在setting中去下載requests這個包

在安裝包PIL 和pytesseract這兩個包的時候出現了許多狀況直接影響了我的學習進度

首先 pycharm 在setting中無法直接安裝PIL這個包但是能可以下載pillow這個包可以說pillow是PIL的升級版吧

然後就是下載pytesseract 這個包了我們可以選擇使用pip 命令列進行下載 : pip install pytesseract

之後就是阻礙我進度的來了

我們下載了PIL 和pytesseract 這兩個包後是無法執行程式的或者說他依然還會報錯是因為我們還得下載Tesseract-ocr 這個識別引擎網上都有安裝包在這裡就不詳細描述了下載安裝後因為我們進行的是中文文字的識別所以還得有一箇中文語言包（或著可以在安裝tesseract-ocr時直接選擇下載所有的語言包等待時間較長）：chi_sim.traineddata

然後這樣子執行還是會報錯首先你的配置ocr的環境（最好放在最上面，我的老師告訴我這個還有優先順序問題）

然後在path中新建一個

然後進入pytesseract.py檔案中進行修改tesseract_cmd

將等號後面的地址換成在你電腦上的位置前面加上r 是為了防止轉義

# 匯入包

import requests

from PIL import Image

import pytesseract

# 模仿瀏覽器進行訪問

headers = {"User-Agent": " Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)"}

# 獲取網址 ( 該網址是我所讀學校的官網上圖片所以我進行了處理刪掉了一點內容)

url = " http:/*******edu.cn/_upload/article/images/13/d0/55f5bd084947b5f0bd5870f507fd/739926cd-a4ec-4ad9-bec0-d044e3db47c4.jpg"

# 獲取圖片對圖片進行處理

res =requests.get(url = url , headers =headers)

f = open ("c.jpg", "wb")

f.write(res.content)

f.close()

# 圖片文字識別

text = pytesseract.image_to_string(Image.open("c.jpg"),lang = "chi_sim")

print(text)

最後我終於成功地執行出來了哈哈哈

python學習----網頁圖片文字識別(簡單)

python學習----網頁圖片文字識別(簡單)

python 使用pytesseract圖片文字識別

Python配置圖片文字識別

Python學習之圖片對比和識別小記

圖片文字識別：Tesseract OCR庫在Python中基本使用

python呼叫百度圖片文字識別介面

如何簡單的去操作圖片文字識別

如何簡單的實現圖片文字識別

Python 利用百度文字識別 API 識別並提取圖片中文字

基於Eclipse下的 tesseract -OCR實現圖片文字識別過程簡單介紹

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 18—Photo OCR 應用例項:圖片文字識別

Python爬蟲專案實戰3 | 圖片文字識別（以驗證碼識別為例）

Python影象處理之圖片文字識別（OCR）

Python-圖片文字識別

python之圖片文字識別

【python 文字識別】利用pytesseract庫進行圖片文字識別

Python圖片文字識別轉換程式

轉載-Python影象處理之圖片文字識別（OCR）

Andrew NG 機器學習筆記-week11-應用例項：圖片文字識別（Application Example：Photo OCR）

C#圖片文字識別

python學習----網頁圖片文字識別(簡單)

相關推薦