1. 程式人生 > >在scrapy上使用cookie模擬登入

在scrapy上使用cookie模擬登入

下面的例子模擬登入知乎的個人設定頁面

設定代理池 scrapy + tor

#安裝tor
sudo apt-get install tor
sudo /etc/init.d/tor restart  #重啟服務
tor --hash-password mypassword  #生成hash密碼
sudo vim /etc/tor/torrc   #編輯加入如下內容
ControlPort 9051
HashedControlPassword
16:xxx   #xxx表示剛才生成的hash密碼
儲存退出
sudo /etc/init.d/tor restart  #重啟tor
class ZH(CrawlSpider)
:
name = 'zhihu' allowed_domains = ['https://www.zhihu.com/'] def start_requests(self): coo = {} cookie = {'你的cookie字串'} for seg in cookie.split(';'): key,value = seg.split('=',1) coo[key] = value return [scrapy.FormRequest('https://www.zhihu.com/settings/profile'
,cookies=coo,callback=self.parse)] def parse(self, response): print response.body

補充一下:

#將unicode編碼轉化為utf-8
   str = unicode.encode(str,'utf-8')

相關推薦

scrapy使用cookie模擬登入

下面的例子模擬登入知乎的個人設定頁面 設定代理池 scrapy + tor #安裝tor sudo apt-get install tor sudo /etc/init.d/tor restar

scrapy知乎模擬登入cookie登入

模擬登入# -*- coding: utf-8 -*- import scrapy from scrapy import cmdline #from scrapy.spiders import CrawlSpider import scrapy from scrap

scrapy獲取cookie,並用cookie模擬登入人人網,爬取資料

1. 先用帳號密碼登入人人網,檢視元素,重新整理頁面,network中找第一個網頁請求,並檢視請求cookie 2.複製貼上修改格式  爬蟲程式碼如下: -*- coding: utf-8 -*- import scrapy class RenrenSpider(

cookie模擬登入

我這裡使用的是python中的requests.get(url,headers,cookies). 其中headers和cookies都是字典形式。headers作用是模擬瀏覽器,告訴伺服器我不是爬蟲。cookies作用是模擬使用者,告訴伺服器我不是機器人,我是某某使用者。 以知乎為例,he

使用cookie模擬登入用法之cookiejar 在urllib中的使用

# -*- coding: utf-8 -*- """ Created on Fri May 25 16:36:36 2018 @author: Administrator """ from http import cookiejar from urllib import request fro

爬蟲使用cookie模擬登入

使用cooklelib庫和Httpcookieprocessora模擬登入 Cookie是指網站伺服器為了辨別使用者身份和進行 Session跟蹤,而儲存在使用者瀏覽器的文字檔案, Cookie可以保持登入資訊到使用者下次與伺服器的會話。 這裡以人人網為例。人人網中,要訪回某個人的主頁,必須先登入才

採用cookie模擬登入csdn網站

有些網站需要填寫賬戶和密碼,如果直接爬去網頁資訊,自然是進不去了,這裡採用cookiejar工具來實現這個目的 import urllib.request, urllib.parse, urllib.

使用cookie模擬登入

1、有些網站需要登入後才能訪問某個頁面,在登入之前,你想抓取某個頁面內容,登陸前與登陸後是不同的,或者不允許的。   使用Cookie和使用代理IP一樣,也需要建立一個自己的opener。在HTTP包中,提供了cookiejar模組,用於提供對Cookie的支援。 2

通過scrapy,從模擬登入開始爬取知乎的問答資料

這篇文章將講解如何爬取知乎上面的問答資料。 首先,我們需要知道,想要爬取知乎上面的資料,第一步肯定是登入,所以我們先介紹一下模擬登入: 先說一下我的思路: 1.首先我們需要控制登入的入口,重寫start_requests方法。來控制到這個入口之後,使用

Scrapy中使用cookie免於驗證登入模擬登入

Scrapy中使用cookie免於驗證登入和模擬登入 引言 python爬蟲我認為最困難的問題一個是ip代理,另外一個就是模擬登入了,更操蛋的就是模擬登入了之後還有驗證碼,真的是不讓人省心,不過既然有了反爬蟲,那麼就有反反爬蟲的策略,這裡就先介紹一個cookie模擬登陸,後續還有se

Scrapy框架模擬登入cookie登入

新建douban專案 通過charles  獲取到cookie後 貼上進入pycharm, 尼瑪格式混亂,無奈手工新增冒號,同時將=號換成:號。。。 cookies = { "bid": "EP3q1inffgg", "__yadk_uid" : "bI

【轉載儲存】Java丨jsoup網路爬蟲登入得到cookie並帶cookie訪問

優秀文章:https://blog.csdn.net/wisdom_maxl/article/details/65631825 jsoup使用cookie: Set<Cookie> cookie_set = LoadCSDN.load(); // WebClient

使用scrapy框架,用模擬瀏覽器的方法爬取京東面膜資訊,並存入mysql,sqlite,mongodb資料庫

因為京東的頁面是由JavaScript動態載入的所以使用模擬瀏覽器的方法進行爬取,具體程式碼如下 : spider.py # -*- coding: utf-8 -*- import scrapy from scrapy import Request from jdpro.items

爬蟲入門,模擬登入,動態token,攜帶cookie,密文加密,登入拉勾網,簡單爬蟲案例

import requests import re #匯入相應的庫檔案 headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64

爬蟲登入Django, scrf攔截, token驗證, scrapy模擬登入

思路:在登入頁面獲取令牌,傳送發帖,附帶上已獲取的令牌 參考:https:  //www.jianshu.com/p/d73e971da41c import requests from lxml import etree headers = { 'User-Agent'

Selenium新增Cookie模擬無驗證碼登入

最近爬蟲碰見需要用selenium模擬登入,有驗證碼滑塊+圖片點選驗證,在解決過程中發現一篇很好的示例,雖然是無驗證碼的那種,但是還不錯,先記下來! 程式碼及註釋如下: #!coding=utf-8 import time from selenium import webdriver

cookie訪問伺服器實現模擬登入

當我們需要抓取需要登入的網站的資訊或者實現模擬登入時,我們需要得到第一次登入網站的cookie,以便於下次登入可以不用post引數實現登入,只要將cookie放入標頭檔案就好,這是之前寫的模擬登入學校教務的程式碼,記錄以便查閱。 public String

Scrapy筆記(11)- 模擬登入

有時候爬取網站的時候需要登入,在Scrapy中可以通過模擬登入儲存cookie後再去爬取相應的頁面。這裡我通過登入github然後爬取自己的issue列表來演示下整個原理。 要想實現登入就需要表單提交,先通過瀏覽器訪問github的登入頁面https://github.com/login,然後使用瀏覽器除錯

Java爬蟲(三)-- httpClient 模擬登入 + cookie 登入狀態管理

前言 前面兩章內容闡述了httpClient怎麼模擬Http請求和如何解析頁面。 接下去會講在一些實戰中遇到的問題。 現在回到我的開發摸索之路,之前說到我所爬取的網頁是某個險企提供給合作公司的一個頁面,通過賬號登入然後爬取指定的資料。 這裡就出現本章要寫

nginx配置代理,包含Cookie模擬登入

加入下面的配置, 主要配置允許跨域訪問,以及設定代理Cookie, 重點引數:proxy_set_header Cookie / Access-Control-Allow-Origin/ Access-Control-Allow-Credentials location