python opencv pytesseract 驗證碼識別的實現

阿新 • • 發佈：2020-08-31

一、環境配置

需要 pillow 和 pytesseract 這兩個庫，pip install 安裝就好了。

install pillow -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip install pytesseract -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

安裝好Tesseract-OCR.exe

pytesseract 庫的配置：搜尋找到pytesseract.py，開啟該.py檔案，找到 tesseract_cmd，改變它的值為剛才安裝 tesseract.exe 的路徑。

python opencv pytesseract 驗證碼識別的實現

二、驗證碼識別

識別驗證碼，需要先對影象進行預處理，去除會影響識別準確度的線條或噪點，提高識別準確度。

例項1

import cv2 as cv
import pytesseract
from PIL import Image


def recognize_text(image):
  # 邊緣保留濾波 去噪
  dst = cv.pyrMeanShiftFiltering(image,sp=10,sr=150)
  # 灰度影象
  gray = cv.cvtColor(dst,cv.COLOR_BGR2GRAY)
  # 二值化
  ret,binary = cv.threshold(gray,255,cv.THRESH_BINARY_INV | cv.THRESH_OTSU)
  # 形態學操作  腐蝕 膨脹
  erode = cv.erode(binary,None,iterations=2)
  dilate = cv.dilate(erode,iterations=1)
  cv.imshow('dilate',dilate)
  # 邏輯運算 讓背景為白色 字型為黑 便於識別
  cv.bitwise_not(dilate,dilate)
  cv.imshow('binary-image',dilate)
  # 識別
  test_message = Image.fromarray(dilate)
  text = pytesseract.image_to_string(test_message)
  print(f'識別結果：{text}')


src = cv.imread(r'./test/044.png')
cv.imshow('input image',src)
recognize_text(src)
cv.waitKey(0)
cv.destroyAllWindows()

執行效果如下：

識別結果：3n3D

Process finished with exit code 0

python opencv pytesseract 驗證碼識別的實現

例項2

import cv2 as cv
import pytesseract
from PIL import Image


def recognize_text(image):
  # 邊緣保留濾波 去噪
  blur =cv.pyrMeanShiftFiltering(image,sp=8,sr=60)
  cv.imshow('dst',blur)
  # 灰度影象
  gray = cv.cvtColor(blur,cv.THRESH_BINARY_INV | cv.THRESH_OTSU)
  print(f'二值化自適應閾值：{ret}')
  cv.imshow('binary',binary)
  # 形態學操作 獲取結構元素 開操作
  kernel = cv.getStructuringElement(cv.MORPH_RECT,(3,2))
  bin1 = cv.morphologyEx(binary,cv.MORPH_OPEN,kernel)
  cv.imshow('bin1',bin1)
  kernel = cv.getStructuringElement(cv.MORPH_OPEN,(2,3))
  bin2 = cv.morphologyEx(bin1,kernel)
  cv.imshow('bin2',bin2)
  # 邏輯運算 讓背景為白色 字型為黑 便於識別
  cv.bitwise_not(bin2,bin2)
  cv.imshow('binary-image',bin2)
  # 識別
  test_message = Image.fromarray(bin2)
  text = pytesseract.image_to_string(test_message)
  print(f'識別結果：{text}')


src = cv.imread(r'./test/045.png')
cv.imshow('input image',src)
recognize_text(src)
cv.waitKey(0)
cv.destroyAllWindows()

執行效果如下：

二值化自適應閾值：181.0
識別結果：8A62N1

Process finished with exit code 0

python opencv pytesseract 驗證碼識別的實現

例項3

import cv2 as cv
import pytesseract
from PIL import Image


def recognize_text(image):
  # 邊緣保留濾波 去噪
  blur = cv.pyrMeanShiftFiltering(image,cv.COLOR_BGR2GRAY)
  # 二值化 設定閾值 自適應閾值的話 黃色的4會提取不出來
  ret,185,cv.THRESH_BINARY_INV)
  print(f'二值化設定的閾值：{ret}')
  cv.imshow('binary',binary)
  # 邏輯運算 讓背景為白色 字型為黑 便於識別
  cv.bitwise_not(binary,binary)
  cv.imshow('bg_image',binary)
  # 識別
  test_message = Image.fromarray(binary)
  text = pytesseract.image_to_string(test_message)
  print(f'識別結果：{text}')


src = cv.imread(r'./test/045.jpg')
cv.imshow('input image',src)
recognize_text(src)
cv.waitKey(0)
cv.destroyAllWindows()

執行效果如下：

二值化設定的閾值：185.0
識別結果：7364

Process finished with exit code 0

python opencv pytesseract 驗證碼識別的實現

到此這篇關於python opencv pytesseract 驗證碼識別的實現的文章就介紹到這了,更多相關opencv pytesseract 驗證碼識別內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

python opencv pytesseract 驗證碼識別的實現

一、環境配置需要 pillow 和 pytesseract 這兩個庫，pip install 安裝就好了。 install pillow -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

python opencv+pytesseract 驗證碼識別

文章目錄一、環境配置二、驗證碼識別例項1 例項2 例項3 一、環境配置需要 pillow 和 pytesseract 這兩個庫，pip install 安裝就好了。

opencv+pytesseract 驗證碼識別！草雞簡單！

一、環境配置需要 pillow 和 pytesseract 這兩個庫，pip install 安裝就好了。 pip install pillow -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

Python pytesseract驗證碼識別庫用法解析

環境 centos7 python3 pytesseract只是tesseract-ocr的一種實現介面。所以要先安裝tesseract-ocr（大名鼎鼎的開源的OCR識別引擎）。

python cv2在驗證碼識別中應用例項解析

這篇文章主要介紹了python cv2在驗證碼識別中應用例項解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

opencv實踐——驗證碼識別

完成了opencv基礎知識學習，現在進行實踐操作 1、生成隨機四位數字驗證碼 import os

Nodejs Playwright 2Captcha 驗證碼識別實現自動登陸

原文：https://lwebapp.com/zh/post/bypass-captcha 需求日常工作當中，為了提高工作效率，我們可能會寫指令碼來自動執行任務。有些網站因為需要使用者登陸，所以指令碼的自動登陸功能必不可少。

Python基於內建庫pytesseract實現圖片驗證碼識別功能

這篇文章主要介紹了Python基於內建庫pytesseract實現圖片驗證碼識別功能,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python+selenium2自動化---使用pytesseract和Pillow實現驗證碼識別

這種方式只能對簡單的驗證碼起作用，複雜的就獲取不到了。驗證碼識別思路：

Python實現驗證碼識別

大致介紹　　在python爬蟲爬取某些網站的驗證碼的時候可能會遇到驗證碼識別的問題，現在的驗證碼大多分為四類：

Python識別驗證碼的實現示例

廢話不多說，直接開幹！首先安裝庫 pip install pytesseract pip install PILLOW 然後按照tesseract程式下載安裝

Python驗證碼識別安裝Pillow、tesseract-ocr與pytesseract模組的安裝以及錯誤解決

1. 安裝tesseract tesseract下載地址：https://digi.bib.uni-mannheim.de/tesseract/ 下載完成後雙擊，此時會出現如下圖所示的頁面。

python滑塊驗證碼的破解實現

破解滑塊驗證碼的思路主要有2種：獲得一張完整的背景圖和一張有缺口的圖片，兩張圖片進行畫素上的一一對比，找出不一樣的座標。

C# 使用AspriseOCR.dll實現驗證碼識別

驗證碼（Captcha）基於十道安全柵欄，為網頁、App、小程式開發者打造立體、全面的人機驗證，最大程度地保護註冊登入、活動秒殺、點贊發帖、資料保護等各大場景下的業務安全。要做自動化指令碼程式，就要能識別驗證碼

Python搭建Keras CNN模型破解網站驗證碼的實現

在本專案中，將會用Keras來搭建一個稍微複雜的CNN模型來破解以上的驗證碼。驗證碼如下：

python圖片驗證碼識別最新模組muggle_ocr的示例程式碼

一.官方文件 https://pypi.org/project/muggle-ocr/ 二模組安裝 pip install muggle-ocr # 因模組過新，阿里/清華等第三方源可能尚未更新映象，因此手動指定使用境外源，為了提高依賴的安裝速度，可預先自行安裝依

基於opencv的selenium滑動驗證碼的實現

基於selenium進行動作鏈由於最近很多人聊到滑動驗證碼怎麼處理，所以決定自己動手試一下。

Python爬蟲實戰演示：破解驗證碼識別和彈窗處理

前言在我們寫爬蟲的過程中，目標網站常見的干擾手段就是設定驗證碼等，本就將基於Selenium實戰講解如何處理彈窗和驗證碼，爬取的目標網站為某儀器預約平臺

mac-python-tesseract-亦可用於驗證碼識別

想識別圖片中的一些文字，最終還是選擇了谷歌的tesseract，即使它對中文的識別度還不是特別高，比如左右偏旁的字會識別成兩個字，比如“吶”識別成“口內”，又或者說一些比較偏的字也會識別錯

python opencv pytesseract 驗證碼識別的實現

相關推薦