Scrapy模擬登入抓資料基本應用

阿新 • • 發佈：2019-02-10

# coding=utf-8
import scrapy
from scrapy.selector import Selector

class LoginSpidersPyw(scrapy.Spider):
    #scrapy crawl LoginSpiders 定義爬蟲的名稱
    name = "LoginSpiders"
    #定義允許抓取的域名,如果不是在此列表的域名則放棄抓取
    allowed_domains = ['pyw.cn']
    #登入網址
    LoginUrl="http://v.pyw.cn/login/index"
    #登入驗證介面
    LoginCheckUrl="http://v.pyw.cn/login/check"
    #所要爬取的網址
    start_urls=["http://v.pyw.cn/Data/accountdetail/1",
                "http://v.pyw.cn/Data/accountdetail/2",
                "http://v.pyw.cn/Data/accountdetail/3",
                "http://v.pyw.cn/Data/accountdetail/4"]
    #登入資料：使用者名稱、使用者密碼、是否記住使用者名稱
    formdata = {
        "username": "15880xxxxxx",
        "password": "a123456",
        "remember": "1"
    }
    #記錄當前屬於第幾筆記錄，累計
    PageIndex=0
    #重寫爬蟲類:載入登入頁面，並回調post_login登入提交資料
    def start_requests(self):
        return [scrapy.Request(
            url=self.LoginUrl,
            meta={'cookiejar': 1},
            callback=self.post_login)]
    #執行提交所要登入的資料資訊,
    def post_login(self,response):
        #驗證登入
        return [scrapy.FormRequest.from_response(response,
                                                 url=self.LoginCheckUrl,
                                                 meta={'cookiejar': response.meta['cookiejar']},
                                                 formdata=self.formdata,
                                                 callback=self.after_login,
                                                 method="POST"
                                                 )]
    #登入成功後呼叫所要爬取的網址，start_urls中的網址逐一爬取
    def after_login(self,response):
        for u in self.start_urls:
            yield  scrapy.Request(url=u,
                           meta={'cookiejar': response.meta['cookiejar']},
                           callback=self.parse_details
                           )

    #爬取對應的頁面資訊，單頁資訊
    def parse_details(self,response):
        #選擇當前頁面的所有資訊
        sel=Selector(response)
        #解析出table中的所有tr
        trItems=sel.xpath('//table[@class="table fn-mt-20"]//tr')
        #解析tr中的所有資料
        for tr in trItems:
            self.PageIndex = self.PageIndex + 1
            print "===No." + str(self.PageIndex)+"=="
            tdItems = tr.xpath('//td/text()')
            print tdItems[0].extract().strip()
            print tdItems[1].extract().strip()
            print tdItems[2].extract().strip()
            print tdItems[3].extract().strip()
            print tdItems[4].extract().strip()
            print tdItems[5].extract().strip()
            print tdItems[6].extract().strip()
            print tdItems[7].extract().strip()
            print tdItems[8].extract().strip()
        pass

Scrapy模擬登入抓資料基本應用

# coding=utf-8 import scrapy from scrapy.selector import Selector class LoginSpidersPyw(scrapy.Spider): #scrapy crawl LoginSpiders

Python資料爬蟲學習筆記（19）Scrapy模擬登入實現豆瓣使用者資訊爬蟲

一、需求：在豆瓣官網中，使用Scrapy實現模擬登入，並爬取登入後的個人中心介面中的使用者名稱及日記資訊資料。二、實現思路： 1、關於使用者名稱與密碼以及其提交網址：觀察登入網頁的原始碼，注意到使用者名稱與密碼都使用不同name屬性的input來輸入

爬蟲登入Django, scrf攔截, token驗證, scrapy模擬登入

思路：在登入頁面獲取令牌，傳送發帖，附帶上已獲取的令牌參考：https： //www.jianshu.com/p/d73e971da41c import requests from lxml import etree headers = { 'User-Agent'

c# 微信模擬登入抓取公共帳號傳送圖文資訊

using System; using System.Collections.Generic; using System.Web; using System.IO; using System.Net; using System.Security.Cryptography;

Python模擬登入(一) requests.Session應用

最近由於某些原因，需要用到Python模擬登入網站，但是以前對這塊並不瞭解，而且目標網站的登入方法較為複雜，所以一下卡在這裡了，於是我決定從簡單的模擬開始，逐漸深入地研究下這塊。注：本文僅為交流學習所用。登入特點：明文傳輸，有特殊標誌資料會話物件re

Python 爬蟲(七)-- Scrapy 模擬登入

1. Cookie原理 HTTP是無狀態的面向連線的協議, 為了保持連線狀態, 引入了Cookie機制 Cookie是http訊息頭中的一種屬性，包括： Cookie名字（Name）Cookie的值（Value） Cookie的過期時間（Expires/Max-Age） C

基於強智科技教務系統模擬登入實現資料爬蟲的安卓版專案詳解----適合Android新手

基於強智科技教務系統模擬登入實現資料爬蟲的安卓版專案詳解----適合Android新手(文末有驚喜)開發背景早在去年寒假的時候,就因為在寫個人網站專案的時候,想要對接學校的學生資料庫,這樣能夠繫結學生資訊來更加方便的管理個人網站---菜鳥的自我救贖的使用者物件,

scrapy獲取cookie,並用cookie模擬登入人人網，爬取資料

1. 先用帳號密碼登入人人網，檢視元素，重新整理頁面，network中找第一個網頁請求，並檢視請求cookie 2.複製貼上修改格式爬蟲程式碼如下： -*- coding: utf-8 -*- import scrapy class RenrenSpider(

通過scrapy，從模擬登入開始爬取知乎的問答資料

這篇文章將講解如何爬取知乎上面的問答資料。首先，我們需要知道，想要爬取知乎上面的資料，第一步肯定是登入，所以我們先介紹一下模擬登入：先說一下我的思路： 1.首先我們需要控制登入的入口，重寫start_requests方法。來控制到這個入口之後，使用

23.模擬登入cookies請求速詢網站資料

採集速詢網站資料：網站地址：http://www.suxun0752.com/index.html網站是需要賬號登入才給返回資訊的，我這裡是直接拿的登入後的cookies請求的資料，cookies我也給了註釋，沒做深層的採集只是試採集了某一月份的。簡單分析一下：1.首先要先拿到cookies這樣你才有

scrapy模擬使用者登入

scrapy框架編寫模擬使用者登入的三種方式：方式一：攜帶cookie登入，攜帶cookie一般請求的url為登入後的頁面，獲取cookie資訊應在登入後的頁面獲取，cookie引數應轉成字典形式 # -*- coding: utf-8 -*- import re import scrapy

Scrapy中使用cookie免於驗證登入和模擬登入

Scrapy中使用cookie免於驗證登入和模擬登入引言 python爬蟲我認為最困難的問題一個是ip代理，另外一個就是模擬登入了，更操蛋的就是模擬登入了之後還有驗證碼，真的是不讓人省心，不過既然有了反爬蟲，那麼就有反反爬蟲的策略，這裡就先介紹一個cookie模擬登陸，後續還有se

scrapy知乎模擬登入和cookie登入

模擬登入# -*- coding: utf-8 -*- import scrapy from scrapy import cmdline #from scrapy.spiders import CrawlSpider import scrapy from scrap

Scrapy筆記（11）- 模擬登入

有時候爬取網站的時候需要登入，在Scrapy中可以通過模擬登入儲存cookie後再去爬取相應的頁面。這裡我通過登入github然後爬取自己的issue列表來演示下整個原理。要想實現登入就需要表單提交，先通過瀏覽器訪問github的登入頁面https://github.com/login，然後使用瀏覽器除錯

使用httpclient模擬登入京東帳戶並抓取帳戶資訊

這個，前幾天有個人出2000軟妹幣讓我做這個功能，應該是風控系統需要吧，我就鼓搗起來，先分析了一下京東的請求，發現未加密密碼，呵呵呵呵呵呵，故意的吧喂，那我就不客氣哦專案百度雲地址：http://pan.baidu.com/s/1kVGtgRt 上程式碼：

CURL模擬post,get提交資料-實際應用

CURL是什麼？ CURL是一個非常強大的開源庫，支援很多協議，包括HTTP、FTP、TELNET等，我們使用它來發送HTTP請求。它給我們帶來的好處是可以通過靈活的選項設定不同的HTTP協議引數，並且支援HTTPS。怎麼使用?

VUE DEMO 之模擬登入個人中心頁面之間資料傳值

lalala~ 先上程式碼吧： login.html <!DOCTYPE html> <html lang="en"> <head> <meta

利用httpclient 模擬登入，獲取登入後資訊資料

本例使用httpclient 3.0.jar package test; import org.apache.commons.httpclient.Cookie; import org.apache.commons.httpclient.HttpClient; impor

Scrapy 模擬登陸知乎--抓取熱點話題

折騰了將近兩天，中間數次想要放棄，還好硬著頭皮搞下去了，在此分享出來，希望有同等需求的各位能少走一些彎路。原始碼放在了github上，歡迎前往檢視。若是幫你解決了問題，或者給了你啟發，不要吝嗇給加一星。工具準備在開始之前，請確保 scrpay 正確安裝，手頭有一款簡潔

在scrapy上使用cookie模擬登入

下面的例子模擬登入知乎的個人設定頁面設定代理池 scrapy + tor #安裝tor sudo apt-get install tor sudo /etc/init.d/tor restar

Scrapy模擬登入抓資料基本應用

相關推薦