爬蟲-破解驗證碼
阿新 • • 發佈:2018-01-19
slider pex implicit 驅動 移動 python 2 ima nap 簡單
閱讀目錄
- 一 介紹
- 二 實現
- 三 說明
一 介紹
一些網站會在正常的賬號密碼認證之外加一些驗證碼,以此來明確地區分人/機行為,從一定程度上達到反爬的效果,對於簡單的校驗碼Tesserocr就可以搞定,如下
但一些網站加入了滑動驗證碼,最典型的要屬於極驗滑動認證了,極驗官網:http://www.geetest.com/,下圖是極驗的登錄界面
現在極驗驗證碼已經更新到了 3.0 版本,截至 2017 年 7 月全球已有十六萬家企業正在使用極驗,每天服務響應超過四億次,廣泛應用於直播視頻、金融服務、電子商務、遊戲娛樂、政府企業等各大類型網站
對於這類驗證,如果我們直接模擬表單請求,繁瑣的認證參數與認證流程會讓你蛋碎一地,我們可以用selenium驅動瀏覽器來解決這個問題,大致分為以下幾個步驟
#步驟一:點擊按鈕,彈出沒有缺口的圖片 #步驟二:獲取步驟一的圖片 #步驟三:點擊滑動按鈕,彈出帶缺口的圖片 #步驟四:獲取帶缺口的圖片 #步驟五:對比兩張圖片的所有RBG像素點,得到不一樣像素點的x值,即要移動的距離 #步驟六:模擬人的行為習慣(先勻加速拖動後勻減速拖動),把需要拖動的總距離分成一段一段小的軌跡 #步驟七:按照軌跡拖動,完全驗證 #步驟八:完成登錄
二 實現
#安裝:selenium+chrome/phantomjs #安裝:Pillow Pillow:基於PIL,處理python 3.x的圖形圖像庫.因為PIL只能處理到python 2.x,而這個模塊能處理Python3.x,目前用它做圖形的很多. http://www.cnblogs.com/apexchu/p/4231041.html C:\Users\Administrator>pip3 install pillow C:\Users\Administrator>python3 Python 3.6.1 (v3.6.1:69c0db5, Mar 21 2017, 18:41:36) [MSC v.1900 64 bit (AMD64)] on win32 Type "help", "copyright", "credits" or "license" for more information. >>> from PIL importImage >>>
from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.wait import WebDriverWait from PIL import Image import time def get_snap(): ‘‘‘ 對整個網頁截圖,保存成圖片,然後用PIL.Image拿到圖片對象 :return: 圖片對象 ‘‘‘ driver.save_screenshot(‘snap.png‘) page_snap_obj=Image.open(‘snap.png‘) return page_snap_obj def get_image(): ‘‘‘ 從網頁的網站截圖中,截取驗證碼圖片 :return: 驗證碼圖片 ‘‘‘ img=wait.until(EC.presence_of_element_located((By.CLASS_NAME,‘geetest_canvas_img‘))) time.sleep(2) #保證圖片刷新出來 localtion=img.location size=img.size top=localtion[‘y‘] bottom=localtion[‘y‘]+size[‘height‘] left=localtion[‘x‘] right=localtion[‘x‘]+size[‘width‘] page_snap_obj=get_snap() crop_imag_obj=page_snap_obj.crop((left,top,right,bottom)) return crop_imag_obj def get_distance(image1,image2): ‘‘‘ 拿到滑動驗證碼需要移動的距離 :param image1:沒有缺口的圖片對象 :param image2:帶缺口的圖片對象 :return:需要移動的距離 ‘‘‘ threshold=60 left=57 for i in range(left,image1.size[0]): for j in range(image1.size[1]): rgb1=image1.load()[i,j] rgb2=image2.load()[i,j] res1=abs(rgb1[0]-rgb2[0]) res2=abs(rgb1[1]-rgb2[1]) res3=abs(rgb1[2]-rgb2[2]) if not (res1 < threshold and res2 < threshold and res3 < threshold): return i-7 #經過測試,誤差為大概為7 return i-7 #經過測試,誤差為大概為7 def get_tracks(distance): ‘‘‘ 拿到移動軌跡,模仿人的滑動行為,先勻加速後勻減速 勻變速運動基本公式: ①v=v0+at ②s=v0t+?at2 ③v2-v02=2as :param distance: 需要移動的距離 :return: 存放每0.3秒移動的距離 ‘‘‘ #初速度 v=0 #單位時間為0.2s來統計軌跡,軌跡即0.2內的位移 t=0.3 #位移/軌跡列表,列表內的一個元素代表0.2s的位移 tracks=[] #當前的位移 current=0 #到達mid值開始減速 mid=distance*4/5 while current < distance: if current < mid: # 加速度越小,單位時間的位移越小,模擬的軌跡就越多越詳細 a= 2 else: a=-3 #初速度 v0=v #0.2秒時間內的位移 s=v0*t+0.5*a*(t**2) #當前的位置 current+=s #添加到軌跡列表 tracks.append(round(s)) #速度已經達到v,該速度作為下次的初速度 v=v0+a*t return tracks try: driver=webdriver.Chrome() driver.get(‘https://account.geetest.com/login‘) wait=WebDriverWait(driver,10) #步驟一:先點擊按鈕,彈出沒有缺口的圖片 button=wait.until(EC.presence_of_element_located((By.CLASS_NAME,‘geetest_radar_tip‘))) button.click() #步驟二:拿到沒有缺口的圖片 image1=get_image() #步驟三:點擊拖動按鈕,彈出有缺口的圖片 button=wait.until(EC.presence_of_element_located((By.CLASS_NAME,‘geetest_slider_button‘))) button.click() #步驟四:拿到有缺口的圖片 image2=get_image() # print(image1,image1.size) # print(image2,image2.size) #步驟五:對比兩張圖片的所有RBG像素點,得到不一樣像素點的x值,即要移動的距離 distance=get_distance(image1,image2) #步驟六:模擬人的行為習慣(先勻加速拖動後勻減速拖動),把需要拖動的總距離分成一段一段小的軌跡 tracks=get_tracks(distance) print(tracks) print(image1.size) print(distance,sum(tracks)) #步驟七:按照軌跡拖動,完全驗證 button=wait.until(EC.presence_of_element_located((By.CLASS_NAME,‘geetest_slider_button‘))) ActionChains(driver).click_and_hold(button).perform() for track in tracks: ActionChains(driver).move_by_offset(xoffset=track,yoffset=0).perform() else: ActionChains(driver).move_by_offset(xoffset=3,yoffset=0).perform() #先移過一點 ActionChains(driver).move_by_offset(xoffset=-3,yoffset=0).perform() #再退回來,是不是更像人了 time.sleep(0.5) #0.5秒後釋放鼠標 ActionChains(driver).release().perform() #步驟八:完成登錄 input_email=driver.find_element_by_id(‘email‘) input_password=driver.find_element_by_id(‘password‘) button=wait.until(EC.element_to_be_clickable((By.CLASS_NAME,‘login-btn‘))) input_email.send_keys(‘[email protected]‘) input_password.send_keys(‘linhaifeng123‘) # button.send_keys(Keys.ENTER) button.click() import time time.sleep(200) finally: driver.close()View Code
案例:
from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.wait import WebDriverWait from PIL import Image import time def get_snap(): driver.save_screenshot(‘full_snap.png‘) page_snap_obj=Image.open(‘full_snap.png‘) return page_snap_obj def get_image(): img=driver.find_element_by_class_name(‘geetest_canvas_img‘) time.sleep(2) location=img.location size=img.size left=location[‘x‘] top=location[‘y‘] right=left+size[‘width‘] bottom=top+size[‘height‘] page_snap_obj=get_snap() image_obj=page_snap_obj.crop((left,top,right,bottom)) # image_obj.show() return image_obj def get_distance(image1,image2): start=57 threhold=60 for i in range(start,image1.size[0]): for j in range(image1.size[1]): rgb1=image1.load()[i,j] rgb2=image2.load()[i,j] res1=abs(rgb1[0]-rgb2[0]) res2=abs(rgb1[1]-rgb2[1]) res3=abs(rgb1[2]-rgb2[2]) # print(res1,res2,res3) if not (res1 < threhold and res2 < threhold and res3 < threhold): return i-7 return i-7 def get_tracks(distance): distance+=20 #先滑過一點,最後再反著滑動回來 v=0 t=0.2 forward_tracks=[] current=0 mid=distance*3/5 while current < distance: if current < mid: a=2 else: a=-3 s=v*t+0.5*a*(t**2) v=v+a*t current+=s forward_tracks.append(round(s)) #反著滑動到準確位置 back_tracks=[-3,-3,-2,-2,-2,-2,-2,-1,-1,-1] #總共等於-20 return {‘forward_tracks‘:forward_tracks,‘back_tracks‘:back_tracks} try: # 1、輸入賬號密碼回車 driver = webdriver.Chrome() driver.implicitly_wait(3) driver.get(‘https://passport.cnblogs.com/user/signin‘) username = driver.find_element_by_id(‘input1‘) pwd = driver.find_element_by_id(‘input2‘) signin = driver.find_element_by_id(‘signin‘) username.send_keys(‘linhaifeng‘) pwd.send_keys(‘xxxxx‘) signin.click() # 2、點擊按鈕,得到沒有缺口的圖片 button = driver.find_element_by_class_name(‘geetest_radar_tip‘) button.click() # 3、獲取沒有缺口的圖片 image1 = get_image() # 4、點擊滑動按鈕,得到有缺口的圖片 button = driver.find_element_by_class_name(‘geetest_slider_button‘) button.click() # 5、獲取有缺口的圖片 image2 = get_image() # 6、對比兩種圖片的像素點,找出位移 distance = get_distance(image1, image2) # 7、模擬人的行為習慣,根據總位移得到行為軌跡 tracks = get_tracks(distance) print(tracks) # 8、按照行動軌跡先正向滑動,後反滑動 button = driver.find_element_by_class_name(‘geetest_slider_button‘) ActionChains(driver).click_and_hold(button).perform() # 正常人類總是自信滿滿地開始正向滑動,自信地表現是瘋狂加速 for track in tracks[‘forward_tracks‘]: ActionChains(driver).move_by_offset(xoffset=track, yoffset=0).perform() # 結果傻逼了,正常的人類停頓了一下,回過神來發現,臥槽,滑過了,然後開始反向滑動 time.sleep(0.5) for back_track in tracks[‘back_tracks‘]: ActionChains(driver).move_by_offset(xoffset=back_track, yoffset=0).perform() # 小範圍震蕩一下,進一步迷惑極驗後臺,這一步可以極大地提高成功率 ActionChains(driver).move_by_offset(xoffset=-3, yoffset=0).perform() ActionChains(driver).move_by_offset(xoffset=3, yoffset=0).perform() # 成功後,騷包人類總喜歡默默地欣賞一下自己拼圖的成果,然後戀戀不舍地松開那只臟手 time.sleep(0.5) ActionChains(driver).release().perform() time.sleep(10) # 睡時間長一點,確定登錄成功 finally: driver.close()破解博客園後臺登錄
from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.wait import WebDriverWait from PIL import Image import time def get_snap(driver): driver.save_screenshot(‘full_snap.png‘) page_snap_obj=Image.open(‘full_snap.png‘) return page_snap_obj def get_image(driver): img=driver.find_element_by_class_name(‘geetest_canvas_img‘) time.sleep(2) location=img.location size=img.size left=location[‘x‘] top=location[‘y‘] right=left+size[‘width‘] bottom=top+size[‘height‘] page_snap_obj=get_snap(driver) image_obj=page_snap_obj.crop((left,top,right,bottom)) # image_obj.show() return image_obj def get_distance(image1,image2): start=57 threhold=60 for i in range(start,image1.size[0]): for j in range(image1.size[1]): rgb1=image1.load()[i,j] rgb2=image2.load()[i,j] res1=abs(rgb1[0]-rgb2[0]) res2=abs(rgb1[1]-rgb2[1]) res3=abs(rgb1[2]-rgb2[2]) # print(res1,res2,res3) if not (res1 < threhold and res2 < threhold and res3 < threhold): return i-7 return i-7 def get_tracks(distance): distance+=20 #先滑過一點,最後再反著滑動回來 v=0 t=0.2 forward_tracks=[] current=0 mid=distance*3/5 while current < distance: if current < mid: a=2 else: a=-3 s=v*t+0.5*a*(t**2) v=v+a*t current+=s forward_tracks.append(round(s)) #反著滑動到準確位置 back_tracks=[-3,-3,-2,-2,-2,-2,-2,-1,-1,-1] #總共等於-20 return {‘forward_tracks‘:forward_tracks,‘back_tracks‘:back_tracks} def crack(driver): #破解滑動認證 # 1、點擊按鈕,得到沒有缺口的圖片 button = driver.find_element_by_class_name(‘geetest_radar_tip‘) button.click() # 2、獲取沒有缺口的圖片 image1 = get_image(driver) # 3、點擊滑動按鈕,得到有缺口的圖片 button = driver.find_element_by_class_name(‘geetest_slider_button‘) button.click() # 4、獲取有缺口的圖片 image2 = get_image(driver) # 5、對比兩種圖片的像素點,找出位移 distance = get_distance(image1, image2) # 6、模擬人的行為習慣,根據總位移得到行為軌跡 tracks = get_tracks(distance) print(tracks) # 7、按照行動軌跡先正向滑動,後反滑動 button = driver.find_element_by_class_name(‘geetest_slider_button‘) ActionChains(driver).click_and_hold(button).perform() # 正常人類總是自信滿滿地開始正向滑動,自信地表現是瘋狂加速 for track in tracks[‘forward_tracks‘]: ActionChains(driver).move_by_offset(xoffset=track, yoffset=0).perform() # 結果傻逼了,正常的人類停頓了一下,回過神來發現,臥槽,滑過了,然後開始反向滑動 time.sleep(0.5) for back_track in tracks[‘back_tracks‘]: ActionChains(driver).move_by_offset(xoffset=back_track, yoffset=0).perform() # 小範圍震蕩一下,進一步迷惑極驗後臺,這一步可以極大地提高成功率 ActionChains(driver).move_by_offset(xoffset=-3, yoffset=0).perform() ActionChains(driver).move_by_offset(xoffset=3, yoffset=0).perform() # 成功後,騷包人類總喜歡默默地欣賞一下自己拼圖的成果,然後戀戀不舍地松開那只臟手 time.sleep(0.5) ActionChains(driver).release().perform() def login_cnblogs(username,password): driver = webdriver.Chrome() try: # 1、輸入賬號密碼回車 driver.implicitly_wait(3) driver.get(‘https://passport.cnblogs.com/user/signin‘) input_username = driver.find_element_by_id(‘input1‘) input_pwd = driver.find_element_by_id(‘input2‘) signin = driver.find_element_by_id(‘signin‘) input_username.send_keys(username) input_pwd.send_keys(password) signin.click() # 2、破解滑動認證 crack(driver) time.sleep(10) # 睡時間長一點,確定登錄成功 finally: driver.close() if __name__ == ‘__main__‘: login_cnblogs(username=‘linhaifeng‘,password=‘xxxx‘)修訂版
三 說明
面對簡單的滑動驗證碼,極驗其實是有更復雜版本的,如下所示
機器識別難度高了,大部分屌絲碼農搞不定了。然而人類也蒙蔽了,易用性降到極低。
使用了上述驗證的網站常常會在用戶一片怨聲載道中,又將其恢復成易於破解的滑動驗證。
驗證過程,是個破解難度、用戶體驗之間的一個平衡點。體驗越好的,破解也越容易。
嘲諷驗證碼無效,破解簡單,是很 LOW 的行為。
網站方、驗證碼平臺方,知道你能破解,你牛 B。。。更難的驗證碼他們也有,只是這會嚴重降低體驗,他們不用而已。
爬蟲-破解驗證碼