python 爬蟲網頁登陸的簡單實現

阿新 • • 發佈：2020-11-30

相信各位在寫 python 爬蟲的時候會在爬取網站時遇到一些登陸的問題，比如說登陸時遇到輸入驗證碼比如說登入時遇到圖片拖拽等驗證，如何解決這類問題呢？一般有兩種方案。

使用 cookie 登陸

我們可以通過使用 cookies 登陸，首先獲取瀏覽器的 cookie，然後利用 requests 庫直接登陸 cookie，伺服器就會認為你是一個真實登陸使用者，所以就會返回給你一個已登陸的狀態，這個方法是很好用的，基本上絕大部分的需要驗證碼登入的網站都可以通過 cookie 登入來解決，

 #! -*- encoding:utf-8 -*-
  import requests
  import random
  import requests.adapters

  # 要訪問的目標頁面
  targetUrlList = [
    "https://httpbin.org/ip","https://httpbin.org/headers","https://httpbin.org/user-agent",]

  # 代理伺服器
  proxyHost = "t.16yun.cn"
  proxyPort = "31111"

  # 代理隧道驗證資訊
  proxyUser = "username"
  proxyPass = "password"

  proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    "host": proxyHost,"port": proxyPort,"user": proxyUser,"pass": proxyPass,}

  # 設定 http和https訪問都是用HTTP代理
  proxies = {
    "http": proxyMeta,"https": proxyMeta,}

  # 訪問三次網站，使用相同的Session(keep-alive)，均能夠保持相同的外網IP
  s = requests.session()

  # 設定cookie
  cookie_dict = {"JSESSION":"123456789"}
  cookies = requests.utils.cookiejar_from_dict(cookie_dict,cookiejar=None,overwrite=True)
  s.cookies = cookies

  for i in range(3):
    for url in targetUrlList:
      r = s.get(url,proxies=proxies)
      print r.text
若存在驗證碼，此時採用resp**e = requests_session.post(url=url_login,data=data)是不行的，做法應該如下：

resp**e_captcha = requests_session.get(url=url_login,cookies=cookies)
resp**e1 = requests.get(url_login) # 未登陸
resp**e2 = requests_session.get(url_login) # 已登陸，因為之前拿到了Resp**e Cookie！
resp**e3 = requests_session.get(url_results) # 已登陸，因為之前拿到了Resp**e Cookie！

模擬登陸

這裡不得不說一句老話，前人種樹，後人乘涼，當時我想爬一下知乎鹽選的文章，但是卡在了登陸這塊，沒想到搜尋下來發現了一個模擬登陸的庫，非常好用，不過本著好東西不分享防和諧的原則，就不在這裡說了。

具體思路也就是通過 requests 來進行模擬登陸，然後返回一下驗證碼，之後傳入驗證碼即可登陸成功了。

到此這篇關於python 爬蟲網頁登陸的簡單實現的文章就介紹到這了,更多相關python 爬蟲登陸內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

python 爬蟲網頁登陸的簡單實現

python爬蟲庫scrapy簡單使用例項詳解

最近因為專案需求，需要寫個爬蟲爬取一些題庫。在這之前爬蟲我都是用node或者php寫的。一直聽說python寫爬蟲有一手，便入手了python的爬蟲框架scrapy.

【Python爬蟲】一個簡單的網路爬蟲

網頁結構的相似性爬蟲的目的，是從網站中自動化的批量提取資料。首先嚐試完成以下操作:

Python爬蟲使用bs4方法實現資料解析

聚焦爬蟲: 爬取頁面中指定的頁面內容。編碼流程： 1.指定url 2.發起請求 3.獲取響應資料

Python爬蟲：編寫簡單爬蟲之新手入門

最近整理了一下python的基礎知識，大家一般對“爬蟲”這個詞，一聽就比較熟悉，都知道是爬一些網站上的資料，然後做一些操作整理，得到人們想要的資料，但是怎麼寫一個爬蟲程式程式碼呢？相信很多人是不會的

Python爬蟲：多種方式實現嗶哩嗶哩（bilibili）視訊下載

日常跳轉：匯入與簡介方法一分析與主要程式碼: 程式碼關於程式碼的一些註解：

Python爬蟲破解登陸嗶哩嗶哩的方法

寫在前面作為一名找不到工作的爬蟲菜雞人士來說，登陸這一塊肯定是個比較大的難題。

Python爬蟲技術--入門篇--實現流程

1.上一篇講了爬蟲概述和urllib庫，這篇講解如何獲取資料開啟上次寫好的spider.py檔案,繼續寫入以下程式碼：

Python爬蟲模擬登陸嗶哩嗶哩(bilibili)並突破點選驗證碼功能

寫在前面今天帶給大家一個突破點選驗證碼的案例，利用爬蟲模擬登陸嗶哩嗶哩，並且把一些採坑的地方給大家強調一下，避免大家想我一樣(唉，菜雞本菜)還是老規矩在文末會附上完整程式碼，需要的小夥伴自

python 爬蟲電影天堂簡單示例

前言 1. 爬蟲簡介　　在一些實際專案操作過程中，可能會經常遇到爬蟲的需求，然後將獲得的資料進行處理或寫入資料庫。

Python 用Redis簡單實現分散式爬蟲的方法

Redis通常被認為是一種持久化的儲存器關鍵字-值型儲存，可以用於幾臺機子之間的資料共享平臺。

Python爬蟲對於圖片驗證碼自動識別的實現及模擬會話登陸！

一、圖片驗證碼識別驗證碼識別所使用的api為為快速圖片識別平臺，網頁地址為http://fast.95man.com/auth/main.html，在這個平臺中我們需要先依據使用者名稱和密碼獲取到token

Python 爬蟲批量爬取網頁圖片儲存到本地的實現程式碼

其實和爬取普通資料本質一樣，不過我們直接爬取資料會直接返回，爬取圖片需要處理成二進位制資料儲存成圖片格式（.jpg,.png等）的資料文字。

python爬蟲實現網頁採集器

技術標籤：學習筆記python import requests #匯入requests模組 #UA：User-Agnet:請求載體身份標識

python爬蟲實現爬取網頁主頁資訊（html程式碼）

技術標籤：pythonweb python爬蟲實現爬取網頁主頁資訊（html程式碼） 1.爬取網站原始碼

python爬蟲模擬登入在基礎教育中的應用_Python爬蟲利用cookie實現模擬登陸例項詳解...

技術標籤：python爬蟲模擬登入在基礎教育中的應用 Cookie，指某些網站為了辨別使用者身份、進行session跟蹤而儲存在使用者本地終端上的資料(通常經過加密)。

小白學 Python 爬蟲（8）：網頁基礎

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝

構建爬蟲群很簡單，掌握 python 基礎功就能做到

關鍵詞：爬蟲，程式設計，python，批量檔案操作描述：目前準備爬取一家目標網站的公開資料，預測將累計發起百萬次 api 請求，每個爬蟲指令碼都是單程式、單執行緒。把想要爬取的資料，按關鍵欄位（如id）拆分多段

用python簡單實現mysql資料同步到ElasticSearch的教程

之前部落格有用logstash-input-jdbc同步mysql資料到ElasticSearch，但是由於同步時間最少是一分鐘一次，無法滿足線上業務，所以只能自己實現一個，但是時間比較緊，所以簡單實現一個

python簡單實現操作Mysql資料庫

用python編寫資料庫的程式碼很方便，但是如果不想自己寫sql語句，其實還有更多的討巧辦法。使用webpy的db庫就是不錯的一個選擇。當然為了使用webpy的db，之前你還需要安裝MySQLdb，其他的就不需要做什麼了。

python 爬蟲網頁登陸的簡單實現

相關推薦