scrapy模擬使用者登入

阿新 • • 發佈：2018-11-28

scrapy框架編寫模擬使用者登入的三種方式：

方式一：攜帶cookie登入，攜帶cookie一般請求的url為登入後的頁面，獲取cookie資訊應在登入後的頁面獲取，cookie引數應轉成字典形式

# -*- coding: utf-8 -*-
import re
import scrapy


class RenrenSpider(scrapy.Spider):
    name = 'renren'
    allowed_domains = ['renren.com']
    start_urls = ['http://www.renren.com/966403607/profile 
']
    #要對star_urls進行請求，則要重寫start_requests
    def start_requests(self):
        
        cookies = 'anonymid=joz9buh7-q7cfyi; depovince=GUZ; _r01_=1; _de=A10BB6D966D15FBA1F90E79AB0D2FDF8; ln_uact=18520877258; ln_hurl=http://head.xiaonei.com/photos/0/0/men_main.gif; jebe_key=b605eb90-21b9-4072-9d48-b75b233c1cea%7Cb156ee0bfd56183e1b8eb9e5994eb5ef%7C1543293909743%7C1%7C1543293910671; jebecookies=9700aefc-77a1-49a7-8d74-882aa173e271|||||; JSESSIONID=abcxtZqTI1hOu4WzN0tDw; ick_login=21361cc0-986f-49bc-95f9-de3a9ed54a69; p=29e3cce85947859ee0e1d6264160539f7; first_login_flag=1; t=b6e6ac604c66019acf93cb471550349e7; societyguester=b6e6ac604c66019acf93cb471550349e7; id=966403607; xnsid=ac2d6a1a; loginfrom=syshome; wp_fold=0 
'
        # 將cookies分割成字典形式
        cookies = {
            i.split("=")[0]:i.split("=")[1] for i in cookies.split("; ")
        }
        # 回撥中攜帶cookies的值
        yield scrapy.Request(
            self.start_urls[0],
            cookies=cookies,
            callback=self.parse,
            
        )
    def parse(self, response):
        item  
= {}
        name = re.findall("尚學堂",response.body.decode())
        item["name"] = name
        yield item

為了可以知道cookie確實是在不同的解析函式中傳遞在setting中設定一個引數如下
# 該設定可以知道cookie確實是在不同的解析函式中傳遞
COOKIES_DEBUG=True

方式二：表單dataform的post請求，

# -*- coding: utf-8 -*-
import re
import scrapy


class GithubSpider(scrapy.Spider):
    name = 'github'
    allowed_domains = ['github.com']
    start_urls = ['https://github.com/login']
 
    def parse(self, response):
        authenticity_token = response.xpath('//input[@name="authenticity_token"]/@value').extract_first()
        # form表單提交post
        formdata = {
                    "commit": "Sign in",
                    "utf8": "✓",
                    "authenticity_token": authenticity_token,
                    "login": "sxtpython",
                    "password": "sxt123456"
        }
        yield scrapy.FormRequest(
            # 回撥提交表單跳轉後的url地址
            'https://github.com/session',
            formdata=formdata,
            callback=self.parse_item,
        )
        
    def parse_item(self,response):
        item = {}
        item["name"] = re.findall('sxtpython',response.body.decode())
        yield item

方式三：自動從f響應中找到form表單進行登入

# -*- coding: utf-8 -*-
import re
import scrapy

# 方式三
class Github2Spider(scrapy.Spider):
    name = 'github2'
    allowed_domains = ['github.com']
    start_urls = ['https://github.com/login']

    def parse(self, response):
        
        
        yield scrapy.FormRequest.from_response(
            response,#自動從該響應中獲取form表單
            formdata={
                'login':'sxtpython',
                'password':'sxt123456'
            },
            callback=self.parse_item,
        )
    def parse_item(self,response):
        item = {}
        item["name"] = re.findall('sxtpython',response.body.decode())
        yield item

scrapy模擬使用者登入

scrapy框架編寫模擬使用者登入的三種方式：方式一：攜帶cookie登入，攜帶cookie一般請求的url為登入後的頁面，獲取cookie資訊應在登入後的頁面獲取，cookie引數應轉成字典形式 # -*- coding: utf-8 -*- import re import scrapy

爬蟲登入Django, scrf攔截, token驗證, scrapy模擬登入

思路：在登入頁面獲取令牌，傳送發帖，附帶上已獲取的令牌參考：https： //www.jianshu.com/p/d73e971da41c import requests from lxml import etree headers = { 'User-Agent'

Python 爬蟲(七)-- Scrapy 模擬登入

1. Cookie原理 HTTP是無狀態的面向連線的協議, 為了保持連線狀態, 引入了Cookie機制 Cookie是http訊息頭中的一種屬性，包括： Cookie名字（Name）Cookie的值（Value） Cookie的過期時間（Expires/Max-Age） C

使用requests和scrapy模擬知乎登入

獲取登入傳遞的引數可以看到，這裡當登入的時候，是傳遞紅色部分標註出來的四個引數的,並且訪問的是https://www.zhihu.com/login/phone_num地址，但是這裡驗證碼需要使用者點選倒立的字，目前我還沒有辦法，但是可以使用手機端登入看

Python資料爬蟲學習筆記（19）Scrapy模擬登入實現豆瓣使用者資訊爬蟲

一、需求：在豆瓣官網中，使用Scrapy實現模擬登入，並爬取登入後的個人中心介面中的使用者名稱及日記資訊資料。二、實現思路： 1、關於使用者名稱與密碼以及其提交網址：觀察登入網頁的原始碼，注意到使用者名稱與密碼都使用不同name屬性的input來輸入

Scrapy模擬登入抓資料基本應用

# coding=utf-8 import scrapy from scrapy.selector import Selector class LoginSpidersPyw(scrapy.Spider): #scrapy crawl LoginSpiders

Scrapy框架爬蟲模擬瀏覽器登入—獲取框架Cookies

return [FormRequest.from_response(response, url='http://edu.iqianyue.com/index_user_login', #真實post地址

第三百三十三節，web爬蟲講解2—Scrapy框架爬蟲—Scrapy模擬瀏覽器登錄—獲取Scrapy框架Cookies

pid 設置 ade form 需要 span coo decode firefox 第三百三十三節，web爬蟲講解2—Scrapy框架爬蟲—Scrapy模擬瀏覽器登錄模擬瀏覽器登錄 start_requests()方法，可以返回一個請求給爬蟲的起始網站，這個返回的請求相

python爬蟲之scrapy模擬登錄

這不 eight 搜索頁面 response dom cookie值知乎 blog 背景：　　初來乍到的pythoner，剛開始的時候覺得所有的網站無非就是分析HTML、json數據，但是忽略了很多的一個問題，有很多的網站為了反爬蟲，除了需要高可用代理IP地址池外，還

scrapy模擬登陸小例子

com rap wow64 for apple 模擬 spider log pri # -*- coding: utf-8 -*- import scrapy from scrapy.http import Request,FormRequest class Iqian

運維學python之爬蟲高級篇（六）scrapy模擬登陸

markdown inux ins com 是否準備配置獲取圖片 con 上一篇介紹了如何爬取豆瓣TOP250的相關內容，今天我們來模擬登陸GitHub。 1 環境配置語言：Python 3.6.1 IDE： Pycharm 瀏覽器：firefox 抓包工具：fi

Scrapy模擬登錄GitHub

Coding -c setting encode debug png alt Language rul d: 進入D盤 scrapy startproject GitHub 創建項目 scrapy genspider github github.com 創建爬蟲

python爬蟲系列(2.3-requests庫模擬使用者登入)

一、模擬登入拉鉤網 import re import requests class LoginLaGou(object): """ 模擬登入拉鉤網 """

模擬使用者登入場景，如果連續三次輸入錯誤，則退出程式

思路： 1.定義一個字串密碼，提示使用者輸入密碼 2.判斷字串密碼與使用者輸入的密碼是否一致，若一致則登入成功，跳出迴圈 3.判斷是否超過三次，若是第三次則提示三次登入失敗，退出程式程式碼如下： #define _CRT_SECURE_NO_WARNINGS #include <st

模擬使用者登入（獲取cookie/例項化session）

第一種方法：通過本地瀏覽器儲存的cookie進行登陸 url1 = 'https://passport.cnblogs.com/user/signin?ReturnUrl=https%3A%2F%2Fwww.cnblogs.com%2F' url2 = 'https://www.cnblogs.

go語言模擬網站登入並爬蟲

title: go語言模擬網站登入並爬蟲 tags: go,爬蟲想要學習爬蟲的朋友知道，有時候我們需要爬的網站必須登入，才能獲取到資料，那麼我們該怎麼模擬登入呢？下面我將使用我的分發平臺作為演示： https://866w.cn 打個小小的

scrapy模擬瀏覽器翻頁爬取智聯

智聯爬取中,頁碼的數字和url是不匹配的,因此盲目的拼接url會造成錯誤,因此可以採用模擬瀏覽器爬取網頁要模擬瀏覽器需要知道scrapy流程,簡圖如下: 這裡只是簡單的寫一些偽碼,設計的資料清洗部分請看scrapy資料清洗 middleswares.py from scrap

連線虛擬機器模擬遠端登入

Virtual box設定 1．選擇設定 -> 網路 ->網路地址轉換 ->高階 ->埠轉發 ->主機埠(自己寫,只要不被佔用就行)->子系統埠 22 ->確定 2．配置完成後進入虛擬機器，使用ifconfig檢視ip地址，如圖： Xshell設定 1．開啟

三十、scrapy模擬登陸

1. 回顧之前的模擬登陸的方法 1.1 requests模組是如何實現模擬登陸的？ - 直接攜帶cookies請求頁面找url地址，傳送post請求儲存cookie 1.2 selenium是如何模擬登陸的？找到對應的input標籤，輸入文字點

scrapy 模擬登陸豆瓣

參考: https://blog.csdn.net/qq_37616069/article/details/80376807 # coding=utf-8 import scrapy class DoubanLogin(scrapy.Spider): name = 'douban'

scrapy模擬使用者登入

相關推薦