scrapy框架之cookie和代理操作

阿新 • • 發佈：2018-11-01

一，scrapy傳送post請求

scrapy框架中預設傳送的是get請求，原始碼：

scrapy.Spider父類中的start_request方法：

    def start_requests(self):
        cls = self.__class__
        if method_is_overridden(cls, Spider, 'make_requests_from_url'):
            warnings.warn(
                "Spider.make_requests_from_url method is deprecated; it  
"
                "won't be called in future Scrapy releases. Please "
                "override Spider.start_requests method instead (see %s.%s)." % (
                    cls.__module__, cls.__name__
                ),
            )
            for url in self.start_urls:
                yield 
 self.make_requests_from_url(url)
        else:
            for url in self.start_urls:
                yield Request(url, dont_filter=True)

那麼，想要傳送post請求，我們就需要在我們的爬蟲檔案中重寫父類的start_request方法。

詳見程式碼：

ex:利用爬蟲傳送post請求到百度翻譯

import scrapy


class PosttestSpider(scrapy.Spider):
    name = ' 
postTest'
    # allowed_domains = ['www.qiubai.com']
    start_urls = ['http://www.qiubai.com/']

    def start_requests(self):
        url = 'https://fanyi.baidu.com/sug'
        data = {
            "kw": "hello"
        }
        yield scrapy.FormRequest(url=url, formdata=data, callback=self.parse)

    def parse(self, response):
        print(response.text)

二，cookie

scrapy框架中傳送的request請求，預設回保留cookie。

ex:利用爬蟲登陸豆瓣電影，獲取個人主頁

# -*- coding: utf-8 -*-
import scrapy
from cookieDemo.utils.YMD import YDMHttp


class DoubanSpider(scrapy.Spider):
    name = 'douban'
    # allowed_domains = ['www.douban.com']
    start_urls = ['https://www.douban.com/']

    def parse(self, response):
        img_code_url = response.xpath("//*[@id='captcha_image']/@src").extract_first()
        captcha_id = response.xpath("//*[@id='lzform']/fieldset/div[3]/div/input[2]/@value").extract_first()
        print(img_code_url)
        print(captcha_id)
        yield scrapy.Request(url=img_code_url, callback=self.parse_img, meta={"captcha_id": captcha_id})  # 利用meta傳參

    def parse_img(self, response):
        with open("code.png", "wb") as f:
            f.write(response.body)

        # 傳送登陸請求
        login_url = "https://www.douban.com/accounts/login"
        img_code = self.get_code("code.png")
        captcha_id = response.meta.get("captcha_id")  # 利用request傳參
        data = {
            'redir': 'https://movie.douban.com/',
            "source": "movie",
            "form_email": "[email protected]",
            "form_password": "goulonghui371379.",
            "captcha-solution": img_code,
            "captcha-id": captcha_id,
            'login': '登入',
        }
        yield scrapy.FormRequest(url=login_url, formdata=data, callback=self.parse_login)

    def parse_login(self, response):
        people_url = "https://www.douban.com/people/186597252/"
        yield scrapy.Request(url=people_url, callback=self.get_people_page)

    def get_people_page(self, response):
        with open("people.html", "w", encoding="utf-8") as f:
            f.write(response.text)
            print("over...............................")

    def get_code(self, img_path):
        # 使用者名稱
        username = 'EksYiQiang'
        # 密碼
        password = 'xyq19990113'

        # 軟體ＩＤ，開發者分成必要引數。登入開發者後臺【我的軟體】獲得！
        appid = 6041

        # 軟體金鑰，開發者分成必要引數。登入開發者後臺【我的軟體】獲得！
        appkey = 'c9f0265f96d9e97118aeb8eff629da64'

        # 圖片檔案
        filename = img_path

        # 驗證碼型別，# 例：1004表示4位字母數字，不同型別收費不同。請準確填寫，否則影響識別率。在此查詢所有型別 http://www.yundama.com/price.html
        codetype = 3000

        # 超時時間，秒
        timeout = 60

        # 檢查
        if (username == 'username'):
            print('請設定好相關引數再測試')
            return
        else:
            # 初始化
            yundama = YDMHttp(username, password, appid, appkey)

            # 登陸雲打碼
            uid = yundama.login()
            print('uid: %s' % uid)

            # 查詢餘額
            balance = yundama.balance()
            print('balance: %s' % balance)

            # 開始識別，圖片路徑，驗證碼型別ID，超時時間（秒），識別結果
            cid, result = yundama.decode(filename, codetype, timeout)
            print('cid: %s, result: %s' % (cid, result))
        return result

三，代理操作

ex:利用百度可以搜尋ip可以顯示本機ip,測試代理操作

import scrapy


class IpdemoSpider(scrapy.Spider):
    name = 'IPdemo'
    allowed_domains = ['www.baidu.com']
    start_urls = ['https://www.baidu.com/s?wd=ip']

    def parse(self, response):
        with open("ip.html", "w", encoding="utf-8") as f:
            f.write(response.text)
            print("over")

DownloadMiddleware:

class MyProxyMiddleware(object):

    def process_request(self, request, spider):
        # 這裡的request就是就是中介軟體攔截的請求物件
        # 該方法可以攔截請求物件
        # 將該請求物件的UA進行偽裝
        # 對該請求的uri進行篡改
        request.meta["proxy"] = "https://151.106.15.12:1080"

settings.py:

DOWNLOADER_MIDDLEWARES = {
   # 'ipDemo.middlewares.IpdemoDownloaderMiddleware': 543,
   'ipDemo.middlewares.MyProxyMiddleware': 543,
}

scrapy框架之cookie和代理操作

一，scrapy傳送post請求 scrapy框架中預設傳送的是get請求，原始碼： scrapy.Spider父類中的start_request方法： def start_requests(self): cls = self.__class__ if

25-3 requests模組的cookie和代理操作

一.基於requests模組的cookie操作引言：有些時候，我們在使用爬蟲程式去爬取一些使用者相關資訊的資料（爬取張三“人人網”個人主頁資料）時，如果使用之前requests模組常規操作時，往往達不到我們想要的目的，例如： 1 #!/usr/bin/env python 2 #

6 scrapy框架之分布式操作

raw start isp page 其他 set 分布式爬蟲 d+ sed 分布式爬蟲一.redis簡單回顧　　1.啟動redis：　　　　mac/linux: redis-server redis.conf　　　　windows: redis-server.exe

scrapy框架之日誌等級和請求傳參

一.Scrapy的日誌等級　　- 在使用scrapy crawl spiderFileName執行程式時，在終端裡列印輸出的就是scrapy的日誌資訊。　　- 日誌資訊的種類：　　　　　　　　ERROR ：一般錯誤　　　　　　　　WARNING : 警告　　　　　　　　INFO : 一般

5----scrapy框架之日誌級和請求傳參

一、Scrapy的日誌等級在使用scrapy crawl spiderFileName執行程式時，在終端裡列印輸出的就是scrapy的日誌資訊。日誌資訊的種類：　　ERROR ：一般錯誤　　WARNING : 警告　　INFO : 一般的資訊　　DEBUG ：除錯資訊　　預設的

12.scrapy框架之遞迴解析和post請求

今日概要遞迴爬取解析多頁頁面資料 scrapy核心元件工作流程 scrapy的post請求傳送今日詳情 1.遞迴爬取解析多頁頁面資料 - 需求：將糗事百科所有頁碼的作者和段子內容資料進行爬取切持久化儲存 - 需求分析：每一個頁面對應一個url，則scrapy工程需要對每一個頁碼

（六--二）scrapy框架之持久化操作

pass 集成 ref 步驟 com fin content none 提交 scrapy框架之持久化操作基於終端指令的持久化存儲基於管道的持久化存儲 1 基於終端指令的持久化存儲保證爬蟲文件的parse方法中有可叠代類型對象（通常為列表or字典）

Python爬蟲從入門到放棄（十二）之 Scrapy框架的架構和原理

執行持久 pip 下載響應 .py example 數據模型特殊原文地址https://www.cnblogs.com/zhaof/p/7173397.html 這一篇文章主要是為了對scrapy框架的工作流程以及各個組件功能的介紹 Scrapy目前已經可以很好的在

nodejs死亡筆記之cookie和session（宇宙級框架express）

首先，我必須義正言辭的吐槽一下這個宇宙級框架！express3.x和expss4.x差別怎麼就那麼大呢？找了好多資料來學習，但總是莫名其妙的報錯，一開始我以為是因為我長得不好看，後來發現。。。我用的是4.x的express，而教程是3.x的，好多都對不上號。我@

爬蟲開發11.scrapy框架之CrawlSpider操作

__init__ text rac iba dom 工作 pipe ron 表示提問：如果想要通過爬蟲程序去爬取”糗百“全站數據新聞數據的話，有幾種實現方法？方法一：基於Scrapy框架中的Spider的遞歸爬取進行實現（Request模塊遞歸

爬蟲開發9.scrapy框架之遞歸解析和post請求

scheduler sched ike url 什麽 page https 一個 @class 今日概要遞歸爬取解析多頁頁面數據 scrapy核心組件工作流程 scrapy的post請求發送今日詳情 1.遞歸爬取解析多頁頁面數據 - 需求：將糗事

爬蟲開發8.scrapy框架之持久化操作

需要解析爬蟲 open txt dict fine 入mysql數據庫函數返回今日概要基於終端指令的持久化存儲基於管道的持久化存儲今日詳情 1.基於終端指令的持久化存儲保證爬蟲文件的parse方法中有可叠代類型對象（通常為列表or字典）

Django之cookie和session

name resp wrap sign ide 服務端 rgs err response 一、cookie 保存在客戶端瀏覽器上的鍵值對 1.獲取cookie 1 request.COOKIES[‘key‘] 2 request.get_signed_cookie(key

Django基礎學習之Cookie 和 Sessions 應用

ima ges disco ttr 實現保存 urn 傳遞 nwr 在Django裏面，使用Cookie和Session看起來好像是一樣的，使用的方式都是request.COOKIES[XXX]和request.session[XXX],其中XXX是您想要取得的東西的ke

Hadoop框架之HDFS的shell操作

技術分享登錄自動訪問hdfs tro 分布式文件系屬組 3-9 統計文件既然HDFS是存取數據的分布式文件系統，那麽對HDFS的操作，就是文件系統的基本操作，比如文件的創建、修改、刪除、修改權限等，文件夾的創建、刪除、重命名等。對HDFS的操作命令類似於Linux

node學習之cookie和session

沒有需要 target ssi exp encode 刪除cookie defined 分享 c什麽是cookie Cookie設計的初衷是維持瀏覽器和服務端的狀態。http是無狀態的，服務端不能跟蹤客戶端的狀態。瀏覽器第一次向服務器發送請求，服務器會返回一個coo

4. Beego 框架之cookie與session

文件夾 emca 添加入口 on() eth string mysql func what is cookie? cookie是存儲在客戶端的，用於標識客戶身份的！ what is session session 是存儲在服務端，也是用於客戶身份標識，用於跟蹤用戶會話。

[py][mx]django的cookie和session操作

即使 turn 瀏覽器會話 ext 問題控制 put 實現這玩意可以實現7天免登錄等功能. session和cookie機制原理和交互過程交互過程 ① 客戶端訪問，無服務端寫入的Cookie ② 服務端的Cookie寫入瀏覽器 ③ 瀏覽器解析Cookie，保存至瀏覽

Django框架之 Cookie、Session整理補充

rect() text backends response urn space 關閉 image sub 瀏覽目錄 Django實現的Cookie Django實現的Session 一、Django實現的Cookie 1、獲取Cookie 1 2

第十一章 Django框架學習——Cookie和session

保存服務 span 登錄校驗請求查看cookie cookie 如何 rom 第十一章 Django框架學習——Cookie和session 一、Cookie簡介二、裝飾器版登錄校驗三、session簡介四、如何在CBV中使用裝飾器一、Cookie簡介

scrapy框架之cookie和代理操作

一，scrapy傳送post請求

二，cookie

三，代理操作

相關推薦