python+selenium2自動化---使用pytesseract和Pillow實現驗證碼識別

阿新 • • 發佈：2020-08-09

這種方式只能對簡單的驗證碼起作用，複雜的就獲取不到了。

驗證碼識別思路：

1、獲取整個螢幕截圖

2、獲取驗證碼圖片的座標

3、摳圖獲取驗證碼圖片

4、使用pytesseract識別驗證碼

示例程式碼

import os
from time import sleep

import pytesseract
from selenium import webdriver
from PIL import Image

class TestCase():
    def __init__(self):
        self.driver = webdriver.Chrome()
        self.driver.maximize_window()
        self.driver.get( 
'http://es.bnuz.edu.cn/')

    def test01(self):
        #獲取螢幕截圖
        self.driver.get_screenshot_as_file(os.path.dirname(__file__)+'/螢幕截圖.png')
        #獲取驗證碼圖片元素
        ele = self.driver.find_element_by_xpath('//*[@id="yzm_dd"]/img')
        #獲取驗證碼圖片左上角的座標
        location = ele.location
        size = ele.size
         
print(location)
        print(size)
        #驗證碼圖片的大小
        left = location['x']
        top = location['y']
        right = size['width'] + left
        height = size['height'] + top

        #如果是retina螢幕,需要這樣
        dpr = self.driver.execute_script('return window.devicePixelRatio')

        #摳圖獲取驗證碼圖片 

        im = Image.open(os.path.dirname(__file__)+'/螢幕截圖.png')
        im_new = im.crop((left*dpr,top*dpr,right*dpr,height*dpr))
        im_new.save(os.path.dirname(__file__)+'/驗證碼圖片.png')

        sleep(3)
        self.driver.quit()

    def test02():
        img = Image.open(os.path.dirname(__file__)+'/驗證碼圖片.png')
        res = pytesseract.image_to_string(img)
        print(res)


if __name__ == '__main__':
    TestCase.test02()

獲取到的整個螢幕截圖：

驗證碼圖片：

輸出結果：

python+selenium2自動化---使用pytesseract和Pillow實現驗證碼識別

這種方式只能對簡單的驗證碼起作用，複雜的就獲取不到了。驗證碼識別思路：

python+selenium2自動化---CheckBox和radiobutton定位

下面直接通過示例程式碼說明本地寫一個簡單的form表單： #form1.html<!DOCTYPE html>

python+selenium2自動化---使用Select類實現下拉列表的定位

用法： 1、先匯入Select類 from selenium.webdriver.support.select import Select 2、例項化，通過原始碼可知初始化物件的時候需要傳入下拉框元素物件：

Python實現驗證碼識別

大致介紹　　在python爬蟲爬取某些網站的驗證碼的時候可能會遇到驗證碼識別的問題，現在的驗證碼大多分為四類：

springboot和session實現驗證碼功能

先搞定一個驗證碼生成類 package com.example.testsession.util; import java.awt.*; import java.awt.image.BufferedImage;

C# 使用AspriseOCR.dll實現驗證碼識別

驗證碼（Captcha）基於十道安全柵欄，為網頁、App、小程式開發者打造立體、全面的人機驗證，最大程度地保護註冊登入、活動秒殺、點贊發帖、資料保護等各大場景下的業務安全。要做自動化指令碼程式，就要能識別驗證碼

tensorflow1.x及tensorflow2.x不同版本實現驗證碼識別

近一個假期，入坑深度學習，先從能看得著的驗證碼識別入門。從B站看了幾天的黑馬程式設計師的“3天帶你玩轉python深度學習後“，一是將教程中提到的程式碼一一碼出來；二是針對不同的tensorflow版本，結合

CNN實現驗證碼識別

前面學過數字識別（單任務），這裡基於CNN來實現驗證碼（多工的識別）全部程式碼見：github(Tensorflow/10多工學習）

python爬蟲學習（七）：驗證碼識別

反爬機制：驗證碼.識別驗證碼圖片中的資料，用於模擬登陸操作。識別驗證碼的操作：

Python基於內建庫pytesseract實現圖片驗證碼識別功能

這篇文章主要介紹了Python基於內建庫pytesseract實現圖片驗證碼識別功能,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python opencv pytesseract 驗證碼識別的實現

一、環境配置需要 pillow 和 pytesseract 這兩個庫，pip install 安裝就好了。 install pillow -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

Python利用Pillow(PIL)庫實現驗證碼圖片的全過程

前言 Pillow庫有很多用途，本文使用Pillow來生成隨機的驗證碼圖片。 Pillow的用法參考：https://www.jb51.net/article/196007.htm

Python+tkinter實現驗證碼輸入和切換

近期會議：10月30-11月1日全國高校Python課程高階研修班（蘇州）好訊息：“Python小屋”程式設計比賽正式開始

Python驗證碼識別安裝Pillow、tesseract-ocr與pytesseract模組的安裝以及錯誤解決

1. 安裝tesseract tesseract下載地址：https://digi.bib.uni-mannheim.de/tesseract/ 下載完成後雙擊，此時會出現如下圖所示的頁面。

Python3實現傳送郵件和傳送簡訊驗證碼功能

Python3實現傳送郵件： import smtplib from email.mime.text import MIMEText from email.utils import formataddr

Python搭建Keras CNN模型破解網站驗證碼的實現

在本專案中，將會用Keras來搭建一個稍微複雜的CNN模型來破解以上的驗證碼。驗證碼如下：

Python pytesseract驗證碼識別庫用法解析

環境 centos7 python3 pytesseract只是tesseract-ocr的一種實現介面。所以要先安裝tesseract-ocr（大名鼎鼎的開源的OCR識別引擎）。

java數字和中文算數驗證碼的實現

本文介紹了java數字和中文算數驗證碼的實現，分享給大家，具體如下：效果圖

Python爬蟲實戰演示：破解驗證碼識別和彈窗處理

前言在我們寫爬蟲的過程中，目標網站常見的干擾手段就是設定驗證碼等，本就將基於Selenium實戰講解如何處理彈窗和驗證碼，爬取的目標網站為某儀器預約平臺

python+selenium2自動化---定位元素報錯element click intercepted

頁面元素結構如下圖所示：通過如下方式獲取該元素後直接點選會報錯： selenium.common.exceptions.WebDriverException:Message:elementclickintercepted:Element<spanrole=\"img\"id=\"btn_layer_title_option

python+selenium2自動化---使用pytesseract和Pillow實現驗證碼識別

相關推薦