爬蟲05-B站驗證碼破解

阿新 • • 發佈：2018-11-01

import random
import time

from selenium.webdriver import ActionChains
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from urllib.request import urlretrieve
from selenium import webdriver
from bs4 import BeautifulSoup
import PIL.Image as image
import re


class Crack():
    def __init__(self, username, passwd):
        self.url = 'https://passport.bilibili.com/login'
        self.browser = webdriver.Chrome()
        self.wait = WebDriverWait(self.browser, 100)
        self.BORDER = 6
        self.passwd = passwd
        self.username = username

    def open(self):
        """
        開啟瀏覽器,並輸入查詢內容
        """
        self.browser.get(self.url)
        keyword = self.wait.until(EC.presence_of_element_located((By.ID, 'login-username')))
        keyword.send_keys(self.username)
        keyword = self.wait.until(EC.presence_of_element_located((By.ID, 'login-passwd')))
        keyword.send_keys(self.passwd)
        # bowton.click()

    def get_images(self, bg_filename='bg.jpg', fullbg_filename='fullbg.jpg'):
        """
        獲取驗證碼圖片
        :return: 圖片的location資訊
        """
        bg = []
        fullgb = []
        while bg == [] and fullgb == []:
            bf = BeautifulSoup(self.browser.page_source, 'lxml')
            bg = bf.find_all('div', class_='gt_cut_bg_slice')
            fullgb = bf.find_all('div', class_='gt_cut_fullbg_slice')
        bg_url = re.findall('url\(\"(.*)\"\);', bg[0].get('style'))[0].replace('webp', 'jpg')
        fullgb_url = re.findall('url\(\"(.*)\"\);', fullgb[0].get('style'))[0].replace('webp', 'jpg')
        bg_location_list = []
        fullbg_location_list = []
        for each_bg in bg:
            location = {}
            location['x'] = int(re.findall('background-position: (.*)px (.*)px;', each_bg.get('style'))[0][0])
            location['y'] = int(re.findall('background-position: (.*)px (.*)px;', each_bg.get('style'))[0][1])
            bg_location_list.append(location)
        for each_fullgb in fullgb:
            location = {}
            location['x'] = int(re.findall('background-position: (.*)px (.*)px;', each_fullgb.get('style'))[0][0])
            location['y'] = int(re.findall('background-position: (.*)px (.*)px;', each_fullgb.get('style'))[0][1])
            fullbg_location_list.append(location)
        # 把資源下載到臨時目錄
        urlretrieve(url=bg_url, filename=bg_filename)
        print('缺口圖片下載完成')
        urlretrieve(url=fullgb_url, filename=fullbg_filename)
        print('背景圖片下載完成')
        return bg_location_list, fullbg_location_list

    def get_merge_image(self, filename, location_list):
        """
        根據位置對圖片進行合併還原
        :filename:圖片
        :location_list:圖片位置
        """
        im = image.open(filename)
        # 拼圖上部分的列表
        im_list_upper = []
        # 拼圖下部分的列表
        im_list_down = []

        for location in location_list:
            if location['y'] == -58:
                im_list_upper.append(im.crop((abs(location['x']), 58, abs(location['x']) + 10, 166)))
            if location['y'] == 0:
                im_list_down.append(im.crop((abs(location['x']), 0, abs(location['x']) + 10, 58)))

        # 建立一個新的圖片物件
        new_im = image.new('RGB', (260, 116))

        x_offset = 0
        # 向new_im上畫圖
        for im in im_list_upper:
            new_im.paste(im, (x_offset, 0))
            x_offset += im.size[0]

        x_offset = 0
        # 向new_im上畫圖
        for im in im_list_down:
            new_im.paste(im, (x_offset, 58))
            x_offset += im.size[0]

        #
        new_im.save(filename)

        return new_im

    def is_pixel_equal(self, img1, img2, x, y):
        """
        判斷兩個畫素是否相同
        :param image1: 圖片1
        :param image2: 圖片2
        :param x: 位置x
        :param y: 位置y
        :return: 畫素是否相同
        """
        # 取兩個圖片的畫素點
        pix1 = img1.load()[x, y]
        pix2 = img2.load()[x, y]
        threshold = 60
        if (abs(pix1[0] - pix2[0] < threshold) and abs(pix1[1] - pix2[1] < threshold) and abs(
                        pix1[2] - pix2[2] < threshold)):
            return True
        else:
            return False

    def get_gap(self, img1, img2):
        """
        獲取缺口偏移量
        :param img1: 不帶缺口圖片
        :param img2: 帶缺口圖片
        :return:
        """
        left = 43
        for i in range(left, img1.size[0]):
            for j in range(img1.size[1]):
                if not self.is_pixel_equal(img1, img2, i, j):
                    left = i
                    return left
        return left

    def get_track(self, distance):
        """
        根據偏移量獲取移動軌跡
        :param distance: 偏移量
        :return: 移動軌跡
        """
        # 移動軌跡
        track = []
        # 當前位移
        current = 0
        # 減速閾值
        mid = distance * 4 / 5
        # 計算間隔
        t = 0.2
        # 初速度
        v = 0

        while current < distance:
            if current < mid:
                # 加速度為正2
                a = 2
            else:
                # 加速度為負3
                a = -3
            # 初速度v0
            v0 = v
            # 當前速度v = v0 + at
            v = v0 + a * t
            # 移動距離x = v0t + 1/2 * a * t^2
            move = v0 * t + 1 / 2 * a * t * t
            # 當前位移
            current += move
            # 加入軌跡
            track.append(round(move))
        return track

    def get_slider(self):
        """
        獲取滑塊
        :return: 滑塊物件
        """
        while True:
            try:
                slider = self.browser.find_element_by_xpath("//div[@class='gt_slider_knob gt_show']")
                break
            except:
                time.sleep(0.5)
        return slider

    def move_to_gap(self, slider, track):
        """
        拖動滑塊到缺口處
        :param slider: 滑塊
        :param track: 軌跡
        :return:
        """
        ActionChains(self.browser).click_and_hold(slider).perform()
        while track:
            x = random.choice(track)
            ActionChains(self.browser).move_by_offset(xoffset=x, yoffset=0).perform()
            track.remove(x)
        time.sleep(1.0)
        ActionChains(self.browser).release(slider).perform()
        time.sleep(2)
        #self.browser.quit()

    def crack(self):
        # 開啟瀏覽器
        self.open()

        # 儲存的圖片名字
        bg_filename = './images/bg.jpg'
        fullbg_filename = './images/fullbg.jpg'

        # 獲取圖片
        bg_location_list, fullbg_location_list = self.get_images(bg_filename, fullbg_filename)

        # 根據位置對圖片進行合併還原
        bg_img = self.get_merge_image(bg_filename, bg_location_list)
        fullbg_img = self.get_merge_image(fullbg_filename, fullbg_location_list)

        # 獲取缺口位置
        gap = self.get_gap(fullbg_img, bg_img)
        print('缺口位置', gap)

        track = self.get_track(gap - self.BORDER)
        print('滑動滑塊')
        #print(track)

        # 點按撥出缺口
        slider = self.get_slider()
        # 拖動滑塊到缺口處
        self.move_to_gap(slider, track)
        #
        time.sleep(1)
        try:
            mspan = self.browser.find_element_by_class_name('gt_info_content')
            info = mspan.text
            if '怪物吃了拼圖' in info:
                print(mspan.text)
                time.sleep(2)
                self.crack()
        except Exception as e:
            print(e)



if __name__ == '__main__':
    crack = Crack('username', 'passwd')
    crack.crack()
    print('驗證成功')

爬蟲05-B站驗證碼破解

import random import time from selenium.webdriver import ActionChains from selenium.webdriver.support import expected_conditions as EC from selenium.

爬蟲進階教程：極驗(GEETEST)驗證碼破解教程

摘要: 爬蟲最大的敵人之一是什麼？沒錯，驗證碼！Geetest作為提供驗證碼服務的行家，市場佔有率還是蠻高的。遇到Geetest提供的滑動驗證碼怎麼破？授人予魚不如授人予漁，接下來就為大家呈現本教程的精彩內容。一、前言爬蟲最大的敵人之一是什麼？沒錯，驗證碼！Ge

極客驗證碼破解

apt else with open 加速度自動化 position 自動 button inb 很多網站的登陸都有驗證碼一項，而極客的方案就是應用的非常普遍。更多的場景是反反爬蟲的對抗中，極客驗證碼更是首選。圖片來看一下點擊後就出現上面的滑動圖片的窗口。本文親自嘗

極驗驗證碼破解之selenium

抖動位數 print fresh 調試 start 這樣的破解分享這一篇寫完很久了，因為識別率一直很低，沒辦法拿出來見大家，所以一直隱藏著，今天終於可以拿出來見見陽光了。哈嘍，大家好，我是星星在線，我又來了，今天給大家帶來的是極驗驗證碼的selenium破解之法，

Python + selenium + requests實現12306全自動搶票，驗證碼破解加自動點選！！！

Python + selenium + requests實現12306全自動搶票，驗證碼破解加自動點選！！！！！測試結果：整個買票流程可以再快一點，不過為了穩定起見，有些地方等待了一些時間完整程式，拿去可用整個程式分了三個模組：購票模組（主體）、驗證碼識別模組、餘票查

選字驗證碼破解思路：CTPN - 自然場景文字檢測

前言最近準備極驗3代，選字驗證碼的破解。之前用CNN實現端到端的字元型驗證碼破解已滿足不了需求了，我以為破解選字驗證碼關鍵步驟有三：1.圖片文字的識別；2.字元座標的識別；3.字序的識別。設計的技術有，圖片識別技術、特徵位置檢測和NLP處理。本文作為關鍵技術之一，用

用python擷取螢幕特定位置（具體class）的圖片（多用於爬蟲時遇到的驗證碼擷取，再進行反反爬）

比如在爬蟲時遇到頁面顯示驗證碼驗證環節，需要先擷取到驗證碼，再識別、輸入驗證碼，完成識別過程。以爬取zhipin.com 為例。遇到的反爬頁面顯示如下：擷取思路： 1，用selenium開啟該反爬的頁面，截全屏 2，定位到驗證碼處，截圖儲存即可程式碼如下： fr

滑動驗證碼破解—python—以某東網站為例

目前很多網站的登入都需要採用驗證碼的方式進行登入，這一定程度上增大的爬蟲的難度。以極驗驗證碼為例，這家公司的驗證碼在國內的使用者很多，在業界也很出名。出於好奇心和學術研究的目的，我嘗試了破解某東的驗證碼，也查了很多別人的部落格和資料，最後算是成功了吧。一、破解過程分析

新浪微博的四宮格驗證碼破解

在我們爬蟲的時候經常會遇到驗證碼，新浪微博的驗證碼是四宮格形式。可以採用模板驗證碼的破解方式，也就是把所有驗證碼的情況全部列出來，然後拿驗證碼的圖片和這所有情況中的圖片進行對比，然後獲取驗證碼，再通過seleium自動拖拽點選，進行破解。我們將驗證碼四個點標註為1

極驗滑塊驗證碼破解

嗶哩嗶哩(極驗)滑塊驗證碼破解使用selenium+PIL來獲取圖片以及模擬滑鼠拖動效果 from selenium import webdriver import requests import time from selenium.webdriver.c

爬取有驗證碼的網站，（爬之前最好看一下君子協定）robots.txt,以人人網為例，每爬100條資料需要驗證一次（需要自己購買一個驗證碼破解會員，不是很貴，我這裡選擇的是超級鷹），簡版

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/10/15 14:03 # @Author : zhangz # @File : day4_yanzhengma.py # @Software: Py

Chrome外掛:本地程式實現驗證碼破解（瀏覽器與本地程序通訊）

利用chrome呼叫本地程式破解圖片驗證碼background.js var port = null, tabId, fname = "vcode.chrome.v1.item.01"; //對應登錄檔HKEY_CURRENT_USER\Software\Google\Chrome\Nat

爬蟲工程師教你如何用Python爬蟲模擬登入帶驗證碼網站！

問題分析： 1、爬取網站時經常會遇到需要登入的問題，這是就需要用到模擬登入的相關方法。python提供了強大的url庫，想做到這個並不難。這裡以登入學校教務系統為例，做一個簡單的例子。在這裡我還是要推薦下我自己建的Python開發學習群：483546416，都是學Python開發的，如果你

滑動驗證碼破解（selenium+PIL）-嗶哩嗶哩bilibili

#本文思路通過selenium模擬瀏覽器空值瀏覽器進行驗證碼的操作，利用PIL圖片處理工具進行對圖片處理，識別到圖片要滑動過去的陰影距離小知識點： 1、ActionChains方法是捕捉控制滑鼠進行操作，click_and_hold 點選不放，move_by_offset 按座

極驗驗證的滑動驗證碼破解

題記——毛主席教導我們一切帝國主義都是紙老虎極驗驗證（http://www.geetest.com）是目前比較前沿新穎的一種驗證方式，相比傳統的字元型驗證碼更加人性化，使用者驗證的時間更短，更具互動

爬蟲技術之規避驗證碼

各地工商網站（全稱國家企業信用資訊公示系統）因為包含大量企業真實資訊，金融貸款徵信等都用得到，天然吸引了很大部分來自爬蟲的火力，因此反爬蟲措施格外嚴格。一般的網站僅在登入註冊等環節，或者訪問頻繁後才彈出驗證碼，而工商網站查詢無需登入，每查一次關鍵字就需要一次驗證碼。同時各

python使用selenium和pytesser3處理爬蟲頁面中的驗證碼

from selenium import webdriver import pytesser3 import time driver = webdriver.Chrome() # 迴圈輸入驗證碼，因為一遍可能不能正確識別，直到正確識別，再進行其他操作 accept = F

Python入門：驗證碼破解（二）

一、定位驗證碼元素二、下載驗證圖片三、破解驗證碼 #test.py from selenium import webdriver import os import urllib from PIL import Image import pytes

驗證碼破解技術四部曲之環境搭建篇（一）

前言轉眼就變成大四狗了，大學期間做的比較深入的技術是爬蟲，但是爬蟲也有很多高階的技術沒有涉及，比如說驗證碼的破解便是其中之一，再加上我對其非常感興趣，於是乎，開始苦學影象處理、學習機器學習，驗證碼破解也有了些眉頭。以下是我破解的幾種驗證碼。 1、最容易破解的

Python入門：PIL之驗證碼破解

環境介紹 1、當前檔案的路徑是：/Users/frankslg/PycharmProjects/cjb/ver/ver_code1.py 2、而存放圖片的路徑是：/Users/frankslg/PycharmProjects/cjb/img/*.jpeg

爬蟲05-B站驗證碼破解

相關推薦