python使用selenium和pytesser3處理爬蟲頁面中的驗證碼

阿新 • • 發佈：2019-01-06

from selenium import webdriver
import pytesser3
import time

driver = webdriver.Chrome()

# 迴圈輸入驗證碼，因為一遍可能不能正確識別，直到正確識別，再進行其他操作
accept = False
while not accept:
    try:
        # 開啟含有驗證碼的搜尋頁
        driver.get('your link')
        time.sleep(3)
        # 找到輸入框input，輸入你的搜尋關鍵詞
        input = driver.find_element_by_id('keyword')
        input.send_keys('your keyword')
        time.sleep(5)

        # 驗證碼識別
        # 先對瀏覽器當前頁面截圖，並存儲
        driver.get_screenshot_as_file('C:\\screenshot.jpg')
        im = Image.open('C:\\screenshot.jpg')

        # 用box裁剪出截圖中驗證碼的所在區域
        box = [100, 100, 200, 200]  # 設定要裁剪的區域
        region = im.crop(box)  # 此時，region是一個新的影象物件
        region.save('C:\\codeImage.jpg')

        time.sleep(3)  # 防止由於網速，可能圖片還沒儲存好，就開始識別

        im = Image.open('C:\\codeImage.jpg')
        imgry = im.convert('L')  # 影象加強，二值化
        sharpness = ImageEnhance.Contrast(imgry)  # 對比度增強
        sharp_img = sharpness.enhance(2.0)

        # 將處理後的驗證碼圖片存在code.jpg中
        sharp_img.save('C:\\code.jpg')
        # sharp_img.show() #這是分佈測試時候用的，整個程式使用需要註釋掉

        # 呼叫pytesser3方法，變數code即為識別出的圖片數字str型別
        code = pytesser3.image_file_to_string('C:\\code.jpg', graceful_errors=True)
        print('code：' + code)

        # 在頁面的驗證碼輸入框中輸入識別出的code
        code_input = driver.find_element_by_id('keyword2')
        code_input.send_keys(code)
        time.sleep(2)

        # 然後進行搜尋和後續操作
        driver.find_element_by_class_name('search').click()
        time.sleep(2)

        # 如果驗證碼沒有識別正確，可能會彈出提示框，這裡我們需要對提示框進行處理

        # 在頁面中尋找提示框
        res = EC.alert_is_present()(driver)

        # 如果彈出提示框
        if res:
            # 點選提示框的確認，從新搜尋一遍
            res.accept()
            time.sleep(5)
        else:
            # 說明已經識別成功並搜尋成功，跳出迴圈進行下一步操作
            accept = True
    except UnicodeDecodeError:
        accept = False
        time.sleep(3)

python使用selenium和pytesser3處理爬蟲頁面中的驗證碼

from selenium import webdriver import pytesser3 import time driver = webdriver.Chrome() # 迴圈輸入驗證碼，因為一遍可能不能正確識別，直到正確識別，再進行其他操作 accept = F

JSP頁面中驗證碼的調用方法

gettime down text date pos 瀏覽器獲取 var 生成步驟：1、首先是要生成驗證碼2、對驗證碼類進行調用：主要實現的是將驗證碼圖片輸出到response.getOutputStream()這個輸出流中調用時,可以在頁面調用，也可以在ser

爬蟲之簡單驗證碼處理

sleep 圖書 url lse right num ESS 去掉視覺　　機器視覺的一個分支：文字識別，介紹如何用一些 Python庫來識別和使用在線圖片中的文字。將圖像翻譯成文字一般被稱為光學文字識別(Optical Character Recognition, OC

Python爬蟲基礎：驗證碼的爬取和識別詳解

今天要給大家介紹的是驗證碼的爬取和識別，不過只涉及到最簡單的圖形驗證碼，也是現在比較常見的一種型別。執行平臺：Windows Python版本：Python3.6 IDE: Sublime Text 其他：Chrome瀏覽器簡述流程：步驟1：簡單介紹驗證碼步驟2：

爬蟲入門之驗證碼的處理--------------------------pytesseract庫的使用

前言目前有許多網站針對爬蟲採取了多種多樣的措施進行反爬蟲，為了不降低使用者的體驗度同時還能將爬蟲攔截在網站之外的一個簡單的措施就是驗證碼。隨著技術的發展，驗證碼的種類也越來越多了，圖形拼接、數字組合、簡單的數學問題、點選圖中的文字等等以

利用numpy和pandas處理csv檔案中的時間

環境：numpy,pandas,python3 在機器學習和深度學習的過程中，對於處理預測，迴歸問題，有時候變數是時間，需要進行合適的轉換處理後才能進行學習分析，關於時間的變數如下所示，利用pandas和numpy對csv檔案中時間進行處理。 date

CSS3之利用選擇器和content屬性在頁面中插入內容

使用選擇器在頁面中插入文字 <!DOCTYPE html> <html lang="en" xmlns="http://www.w3.org/1999/xhtml"> <head> <meta charset="utf-

node 利用crypto進行hash加密和URLSafeBase64處理 (node.js郵箱驗證)

最近用node.js做註冊郵箱驗證時,用到urlBase64位字串: //實現思路: //1、資料庫表中新增一個啟用的狀態欄位0或1 (0為未啟用，1未啟用)，在新增一個驗證碼欄位valida

ASP.NET中驗證碼的生成和使用

在網上看了很多牛人寫的關於asp.net生成驗證碼的例子後，進行了一些總結。如果有哪不對的地方還請多多指教。 1.首先我們先建立一個驗證碼頁面（取名Vcode.aspx），我們進入到他的後臺（Vcode.aspx.cs）書寫驗證碼的生成方法： using System;

php中驗證碼不顯示問題

註釋沒有語法 clean ade com 需要提示發現一、首先你要確定你的gd開啟和你的服務器沒有問題　　二、當你驗證碼不顯示時你就直接去請求你的圖片的URL 　　語法錯誤：　　　　　　邏輯錯誤：　　此時，如果出現語法錯誤，頁面會有相應的提示。　

Python圖片處理生產4位驗證碼

color class ext string int 填充分享圖片 www 背景圖像處理是一門應用非常廣的技術，而擁有非常豐富第三方擴展庫的 Python 當然不會錯過這一門盛宴。PIL （Python Imaging Library）是 Python 中最常用的圖像處

登陸頁面的驗證碼生成與驗證

數字 name ron als ntc per null 註冊 errorlog 登陸頁面的驗證碼生成與驗證特點：基於strurs2框架減少對數據庫的訪問次數避免無效的訪問提高服務器的性能 1 登陸界面：基於struts2框架 <s:src actio

Java使用SSM框架實現登錄頁面的驗證碼功能

def ssa bar double trac ext tst setattr info 最終效果展示：代碼展示： 1、前端登錄頁面代碼展示 <div class="form-group"> <div class="input-ico

Centos7中驗證碼圖片報錯

code entos centos install gdiplus gdi sta get vid 在windows開發環境下，沒有問題，在Linux系統中報錯 System.DrawingCore.GDIPlus，參考鏈接：https://www.cnblogs.com/

Yii中驗證碼的設置(五)

截圖步驟驗證時間接下來 framework height als aac 好久沒寫了，正好有時間了，把之前想寫的先寫上。關於yii中的驗證碼，這裏介紹下驗證碼的使用，比如後臺登陸的時候輸入完用戶名和密碼後，需要再輸入驗證碼這樣會更加的安全。從總體來說大概分為4個

Yii中驗證碼的設定(五)

好久沒寫了，正好有時間了，把之前想寫的先寫上。關於yii中的驗證碼，這裡介紹下驗證碼的使用，比如後臺登陸的時候輸入完使用者名稱和密碼後，需要再輸入驗證碼這樣會更加的安全。從總體來說大概分為4個步驟 1.在對用的控制器裡建一個新的控制器方法(actions) 2.輸入驗證碼的文字框也用小物件 3.修

python爬蟲時圖形驗證碼識別( tesserocr)

window環境下：第一步：安裝tesseract：教程如下：https://www.cnblogs.com/jianqingwang/p/6978724.html 第二步：安裝 tesserocr ：到這裡下載whl版本 &

爬蟲驗證碼解決思路 Python爬蟲四種驗證碼的解決思路

參考崔慶才python網路爬蟲開發實戰 Python爬蟲四種驗證碼的解決思路 2018年06月07日 10:17:13 小卒曹阿瞞閱讀數：5584

java spring 實現登入頁面新增驗證碼

from 表單： <div class="block"> <p class="block-heading">使用者登入</p> <div class="blo

TP3.2 中驗證碼類使用流程

1.在Index控制器中，建立產生驗證碼的方法： function verify(){ //1.例項化驗證碼類 $config = array( 'useImgBg' => false, // 使用背景圖片 'fon

python使用selenium和pytesser3處理爬蟲頁面中的驗證碼

相關推薦