Scrapy模擬登錄GitHub

阿新 • • 發佈：2018-07-08

Coding -c setting encode debug png alt Language rul

進入D盤

scrapy startproject GitHub

創建項目

scrapy genspider github github.com

創建爬蟲

技術分享圖片

編輯github.py:

# -*- coding: utf-8 -*-
import scrapy
from scrapy import Request, FormRequest


class GithubSpider(scrapy.Spider):
    name = ‘github‘
    allowed_domains = [‘github.com‘]

    headers = {
        ‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8‘,
        ‘Accept-Encoding‘: ‘gzip, deflate, br‘,
        ‘Accept-Language‘: ‘zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3‘,
        ‘Connection‘: ‘keep-alive‘,
        ‘Referer‘: ‘https://github.com/‘,
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:52.0) Gecko/20100101 Firefox/52.0‘,
        ‘Content-Type‘: ‘application/x-www-form-urlencoded‘
    }
    # 請求頭

    def start_requests(self):
        # 重寫start_requests方法
        urls = [‘https://github.com/login‘]
        for url in urls:
            yield Request(url, meta={‘cookiejar‘: 1}, callback=self.github_login)
            # 通過meta傳入cookiejar特殊key，爬取url作為參數傳給回調函數
            # meta：字典格式的元數據
            # cookiejar：是meta的一個特殊的key，通過cookiejar參數可以支持多個會話對某網站進行爬取
            # 可以對cookie做標記1, 2, 3, 4......這樣scrapy就維持了多個會話

    def github_login(self, response):
        authenticity_token = response.xpath(".//*[@id=‘login‘]/form/input[2]/@value").extract_first()
        # 首先從源碼中獲取到authenticity_token的值
        return FormRequest.from_response(
            response,
            url=‘https://github.com/session‘,
            meta={‘cookiejar‘: response.meta[‘cookiejar‘]},
            headers=self.headers,
            formdata={
                ‘authenticity_token‘: authenticity_token,
                ‘commit‘: ‘Sign in‘,
                ‘login‘: ‘[email protected]‘,
                ‘password‘: ‘caihong@1234‘,
                ‘utf8‘: ‘?‘
            },
            callback=self.github_after,
            dont_click=True
            # dont_click如果是True，表單數據將被提交，而不需要單擊任何元素
        )

    def github_after(self, response):
        home_page = response.xpath(".//*[@id=‘dashboard‘]/div[2]/div[1]/nav/a[1]/text()").extract()
        # 獲取登錄成功後頁面中的文本“Browse activity”

        if ‘Browse activity‘ in home_page:
            self.logger.info(‘登錄成功！‘)
            # 如果含有“Browse activity”，則打印登錄成功
        else:
            self.logger.error(‘登錄失敗！‘)

新建debug.py調試腳本：

# -*- coding: utf-8 -*-
from scrapy import cmdline

cmdline.execute(‘scrapy crawl github‘.split())

修改settings.py配置文件：

第23行修改為：

# Obey robots.txt rules
ROBOTSTXT_OBEY = False
# 遵循Robot協議

Scrapy模擬登錄GitHub

Coding -c setting encode debug png alt Language rul d: 進入D盤 scrapy startproject GitHub 創建項目 scrapy genspider github github.com 創建爬蟲

python爬蟲之scrapy模擬登錄

這不 eight 搜索頁面 response dom cookie值知乎 blog 背景：　　初來乍到的pythoner，剛開始的時候覺得所有的網站無非就是分析HTML、json數據，但是忽略了很多的一個問題，有很多的網站為了反爬蟲，除了需要高可用代理IP地址池外，還

JAVA模擬登錄實例

exceptio sig fire client 請求其它 log new mono 近期在做公司一個web項目。要求在我們的系統上，可以顯示其它站點上的數據。剛開始接到這個任務時，還在想。簡單的非常。直接用UrlConection直接進入該網頁，然後獲取該網

在Python中用Request庫模擬登錄（一）：字幕庫（無加密，無驗證碼）

用戶名 com color 了無 1-1 value img requests log 如此簡單（不安全）的登錄表單已經不多見了。字幕庫的登錄表單如下所示，其中省去了無關緊要的內容： 1 <form class="login-form" action="/User/

module1-模擬登錄

python基礎練習#!/usr/local/bin/python3 # -*- coding:utf-8 -*- # AUTHOR:Howard hao import getpass f = open(‘accountfile‘, ‘r+‘, encoding=‘utf-8‘) while True:

php通過curl擴展進行模擬登錄（含驗證碼）

程序 valid 做的 .cn ica ews fclose har user 以下為本人工作中遇到的需要做的事情，之前也沒怎麽用過curl，查了好多資料，才稍微弄明白一點；本文所有內容只是自己平日工作的記錄，僅供大家參考：<?php/*** 模擬登錄*/head

python練習小工具之模擬登錄系統

python登錄系統一、題目模擬寫一個登錄系統，要求：每個用戶都有三次登錄機會，超過三次鎖定！用戶鎖定不影響其他用戶二、代碼：#coding:utf-8 Count = {"san": ["123456", 3], "Ling": ["6666",3]} #值中第一列是密碼,第二列是用戶狀態 while T

python模擬登錄博客園（附：問題求教）

closed handler ostc display 問題 out int cep webkit 經過分析，博客園登錄時采用了JSEncrypt加密，因此登錄請求時要用密文，涉及字段如下 input1：用戶名對應的密文 input2：密碼對應的密文登錄請求鏈接https

Python爬蟲模擬登錄帶驗證碼網站

請求 handle 簡單的 hand win ron secret apple cookielib 問題分析： 1、爬取網站時經常會遇到需要登錄的問題，這是就需要用到模擬登錄的相關方法。python提供了強大的url庫，想做到這個並不難。這裏以登錄學校教務系統為例，做一個簡

Android（Java）模擬登錄知乎並抓取用戶信息

成功 trac += ear 網絡請求 list i++ ger tails 前不久。看到一篇文章我用爬蟲一天時間“偷了”知乎一百萬用戶。僅僅為證明PHP是世界上最好的語言，該文章中使用的登錄方式是直接復制cookie到代碼中，這裏呢，我不以爬信息為目的

C# 實現模擬登錄功能，實現公共類分享。

login margin amr 獲取cookie esp zh-cn white html gda 前言最近在研究模擬登錄的各種方法，主要想要實現的兩個功能是： 1.點擊按鈕可以直接跳轉並登錄到某一個系統中。 2.抓取某一個系統中某一個頁面中的特定數據

python爬蟲--模擬登錄知乎

print url 開發數字 pan tps 參數 content 開發者 1、處理登錄表單處理登錄表單可以分為2步：第一、查看網站登錄的表單，構建POST請求的參數字典；第二、提交POST請求。打開知乎登錄界面，https://www.zhi

Python模擬登錄csdn代碼

code http pro submit sub com headers soup eve #encoding:utf-8 import urllib import urllib2 import cookielib from bs4 import BeautifulSo

Day1作業-模擬登錄

tor elif log odin util users python vid min # /usr/bin/env python# -*- coding: utf-8 -*-# Author:jenvid.yangimport getpassimport shutilus

模擬登錄

== 錯誤 break pre spl close Coding put continue #coding:utf-8""" 1. 用戶輸入帳號密碼進行登陸2. 用戶信息保存在文件內3. 用戶密碼輸入錯誤三次後鎖定用戶"""dic={ ‘egon1‘:{‘passwo

python使用Cookie模擬登錄

utm not ike python使用 .com cep apple conn Coding from bs4 import BeautifulSoup import urllib2 url = ‘https://www.douban.com‘ cookie=‘ll="

模擬登錄知乎selenium在python中

sub spa down ble 版本 body IT sites from from selenium import webdriver from scrapy.selector import Selector browser = webdriver.Chrome(ex

第一周作業，模擬登錄

read 存儲文件中密碼 str 程序 nbsp 登陸使用 ---恢復內容開始--- 模擬登陸作業需求： 1. 用戶輸入帳號密碼進行登陸 2. 用戶信息保存在文件內 3. 用戶密碼輸入錯誤三次後鎖定用戶思路： 1、使用tex文件存放用戶名和密碼信息，存放的格式按

微信公眾平臺模擬登錄自動群發圖文消息工具包

開始索引 new 取圖 over leg rep decode 語音無需微信認證即可實現微信公眾號自動群發圖文消息。使用 npm i wechat-mp-hack --save const Wechat = require(‘wechat-mp-hack‘);

基於puppeteer模擬登錄抓取頁面

分享圖片 load() Go 重新直接 req 用戶 red cat 關於熱圖在網站分析行業中，網站熱圖能夠很好的反應用戶在網站的操作行為，具體分析用戶的喜好，對網站進行針對性的優化，一個熱圖的例子（來源於ptengine）上圖中能很清晰的看到用戶關註點在那，我們不

Scrapy模擬登錄GitHub

相關推薦