cookie操作和代理

阿新 • • 發佈：2018-11-28

cookie操作

爬取豆瓣個人主頁

# -*- coding: utf-8 -*-
import scrapy


class DoubanSpider(scrapy.Spider):
    name = 'douban'
    #allowed_domains = ['www.douban.com']
    start_urls = ['https://www.douban.com/accounts/login']

    #重寫start_requests方法
    def start_requests(self):
        #將請求引數封裝到字典 

        data = {
            'source': 'index_nav',
            'form_email': '15027900535',
            'form_password': '[email protected]'
        }
        for url in self.start_urls:
            yield scrapy.FormRequest(url=url,formdata=data,callback=self.parse)
    #針對個人主頁頁面資料進行解析操作
    def 
 parseBySecondPage(self,response):
        fp = open('second.html', 'w', encoding='utf-8')
        fp.write(response.text)

        #可以對當前使用者的個人主頁頁面資料進行指定解析操作

    def parse(self, response):
        #登入成功後的頁面資料進行儲存
        fp = open('main.html','w',encoding='utf-8')
        fp.write(response.text)

         
#獲取當前使用者的個人主頁
        url = 'https://www.douban.com/people/185687620/'
        yield scrapy.Request(url=url,callback=self.parseBySecondPage)

　　因為要進行登入操作，所以一定要使用post請求進行表單提交，那麼就必須重寫start_requests（）方法；觀察程式碼就可以發現，當登入成功之後再次請求個人主頁，不再需要

刻意地處理cookie，那是因為scrapy已經幫我們省去了這樣的操作：第一次請求返回的cookie會在第二請求傳送的時候被攜帶。

代理

import scrapy

class ProxydemoSpider(scrapy.Spider):
    name = 'proxyDemo'
    #allowed_domains = ['www.baidu.com/s?wd=ip']
    start_urls = ['https://www.baidu.com/s?wd=ip']

    def parse(self, response):
        fp = open('proxy.html','w',encoding='utf-8')
        fp.write(response.text)

配置好配置檔案，然後再執行，在proxy.html檔案中就會看到本機ip的瀏覽器頁面，ip就是真實的本機ip。

那如何更改ip呢？就用到了代理，在scrapy中使用代理操作需要對下載中介軟體下手。

那麼什麼是下載中介軟體呢？

下載中介軟體的作用就是攔截請求，將請求的ip進行更換。

流程：

　　 1. 下載中介軟體類的自制定

　　　　a) 繼承object

　　　　b) 重寫process_request(self,request,spider)的方法

　　 2. 配置檔案中進行下載中間價的開啟。

middlewares.py 就是下載中介軟體的定義檔案

from scrapy import signals

#自定義一個下載中介軟體的類，在類中實現process_request（處理中間價攔截到的請求）方法
class MyProxy(object):
    def process_request(self,request,spider):
        #請求ip的更換
        request.meta['proxy'] = "https://178.128.90.1:8080" # 這裡需要一個有效的代理ip

開啟下載中介軟體

# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
    'proxyPro.middlewares.MyProxy': 543, # 數字大小代表優先順序
}

再次執行，開啟頁面發現ip就被更改了！

cookie操作和代理

cookie操作爬取豆瓣個人主頁 # -*- coding: utf-8 -*- import scrapy class DoubanSpider(scrapy.Spider): name = 'douban' #allowed_domains = ['www.do

Selenium系列（21） - Cookie操作和原始碼解讀

如果你還想從頭學起Selenium，可以看看這個系列的文章哦！ https://www.cnblogs.com/poloyy/category/1680176.html 其次，如果你不懂前端基礎知識，需要自己去補充哦，博主暫時沒有總結（雖然我也會，所以我學selenium就不用複習前端了哈哈哈.

scrapy框架之cookie和代理操作

一，scrapy傳送post請求 scrapy框架中預設傳送的是get請求，原始碼： scrapy.Spider父類中的start_request方法： def start_requests(self): cls = self.__class__ if

25-3 requests模組的cookie和代理操作

一.基於requests模組的cookie操作引言：有些時候，我們在使用爬蟲程式去爬取一些使用者相關資訊的資料（爬取張三“人人網”個人主頁資料）時，如果使用之前requests模組常規操作時，往往達不到我們想要的目的，例如： 1 #!/usr/bin/env python 2 #

（四）requests模組的cookies 和代理操作

一.基於requests模組的cookie操作引言：有些時候，我們在使用爬蟲程式去爬取一些使用者相關資訊的資料（爬取某個人“人人網”個人主頁資料）時，如果使用之前requests模組常規操作時，往往達不到我們想要的目的例如：我們要得到如下的形式但是,我們通過之前所學習的知識

selenium的隱式等待和顯式等待及cookie操作

頁面等特: 現在的網頁越來越多采用了Ajax技術,這樣程式便不能確定何時某個元素完全加載出來，入股實際頁面等待時間過長導致某個dom元素還沒出來,但是你的程式碼直接使用了這個 Webelement,那麼就會上Nullpointerf的異常,為了解決這個問題,所以 Selenium提供了兩種等待方

Python爬蟲請求頭、請求代理以及cookie操作

·爬蟲程式urllib2模組底層操作； ·請求頭的設定和新增； ·請求代理的種類和型別； ·關於cookie的操作（手動新增/程式自動獲取）一、爬蟲底層操作和請求頭的設定 1.demo01_爬蟲底層操作雖然urllib2模組是爬蟲的底層操作，但並不是程式的底層

使用閉包和代理和Segue進行反向傳值

closure create 賦值返回 protocol alt 類型 del uiview import UIKit class FirstViewController: UIViewController, SecondViewControllerDelegate

Python常用的文件讀寫操作和字符串操作

dir info load char 編碼 lines resolve values ror 文件讀寫操作 fileUtils.py # -*- coding: utf-8 -*- import os def getFileList(dir, fileList=[]):

DOM內容操作和自定義、樣式改變

abcdefg result 定義 tel class abcde inner 參數 fun 自定義 function 方法名或函數名(參數1，參數2，、、、) { 方法體； return返回值；（可不寫） } function a

JQuery中的Dom操作和事件

表單 lba app 選擇 ava return server pen log （一）JQuery中的事件 1.常規事件，把js事件中的on去掉　　復合事件：hover(function(){},function(){}) ---- 相當於把鼠標移入移出事件和在一起執行

Python全棧開發之4、內置函數、文件操作和遞歸

開發 hang mon alien yun alpha err fdm ax1 %E5%AD%97%E8%8A%82%E5%BA%8F%E8%BD%AC%E6%8D%A2%E4%B8%8E%E7%BB%93%E6%9E%84%E4%BD%93%E4%BD%8D%E5%9F%

【轉】jquery cookie操作

訪問網站 blog cookie img jquer src dom 存儲購物 Cookie是網站設計者放置在客戶端的小文本文件。Cookie能為用戶提供很多的使得，例如購物網站存儲用戶曾經瀏覽過的產品列表，或者門戶網站記住用戶喜歡選擇瀏覽哪類新聞。在用戶允許的情況下，

[區別]APPlication,Session,Cookie,ViewState和Cache

bcf 百度 red 搬家 view color app 發布 ati 原文發布時間為：2009-08-01 —— 來源於本人的百度文章 [由搬家工具導入]在ASP.NET中，有很多

cookie 操作

emp -c ans href -s 如何刪除 expires 頁面 JavaScript是運行在客戶端的腳本，因此一般是不能夠設置Session的，因為Session是運行在服務器端的。而cookie是運行在客戶端的，所以可以用JS來設置cookie. 假設有這樣一種情

java與javascript對cookie操作的工具類

check cells ram tco expire turn get servle request Java對cookie的操作 package cn.utils; import java.util.HashMap; import java.util.Map;

Jquery Cookie操作

讀取 name 2-2 cnblogs value cli use on() jquery // 寫入 $.cookie(‘the_cookie‘,‘the_value‘);// 讀取 $.cookie(‘the_cookie‘);// 刪除 $.cookie

MyBatis實現Mysql數據庫分庫分表操作和總結

用戶表設計行數百萬出現問題網絡自增 .html tro 閱讀目錄前言 MyBatis實現分表最簡單步驟分離的方式分離的策略分離的問題分離的原則實現分離的方式總結前言作為一個數據庫，作為數據庫中的一張表，隨著用戶的增多隨著時間的推移，總有一

github常見操作和常見錯誤

leg 我們找到指向 nec mailto 根目錄常見操作 error: 如果輸入$ Git remote add origin [email protected]:github帳號名/項目名.git 提示出錯信息：fatal: remote o

[04] Cookie概念和基本使用

googl fsg 發現 mage oaf 文件格式 veh ddc 無法讀取 1、Cookie是什麽Cookie，中文名稱為“小型文本文件”或“小甜餅”，指某些網站為了辨別用戶身份而儲存在用戶本地終端上的數據（通常經過加密）。很多網站在你瀏覽後，會在你電腦中留下小小的檔案

cookie操作和代理

cookie操作

代理

相關推薦