採用cookie模擬登入csdn網站
有些網站需要填寫賬戶和密碼,如果直接爬去網頁資訊,自然是進不去了,這裡採用cookiejar工具來實現這個目的
import urllib.request, urllib.parse, urllib.error import http.cookiejar import ppretty from bs4 import BeautifulSoup if __name__ == '__main__': LOGIN_URL = 'https://passport.csdn.net/account/login' values = {'user': '**********', 'password': '**********'} postdata = urllib.parse.urlencode(values).encode() user_agent = r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36' headers = {'User-Agent': user_agent, 'Connection': 'keep-alive'} #cookiejar可以理解為儲存cookie的一個工具吧,在這裡我們把第一次http請求返回的cookie儲存在cookie.txt檔案中 cookie_filename = 'cookie.txt' cookie = http.cookiejar.MozillaCookieJar(cookie_filename) handler = urllib.request.HTTPCookieProcessor(cookie) opener = urllib.request.build_opener(handler) request = urllib.request.Request(LOGIN_URL, postdata, headers) try: response = opener.open(request) page = response.read().decode() # print(page) except urllib.error.URLError as e: print(e.code, ':', e.reason) cookie.save(ignore_discard=True, ignore_expires=True) # 儲存cookie到cookie.txt中 print(cookie) for item in cookie: print('Name = ' + item.name) print('Value = ' + item.value) get_url = 'https://i.csdn.net/#/uc/profile' get_request = urllib.request.Request(get_url, headers=headers) #採用之前的第一次請求返回的cookie作為引數再次進行二次請求,就可以 get_response = opener.open(get_request) soup=BeautifulSoup(get_response,'lxml') print(soup.head)
相關推薦
採用cookie模擬登入csdn網站
有些網站需要填寫賬戶和密碼,如果直接爬去網頁資訊,自然是進不去了,這裡採用cookiejar工具來實現這個目的 import urllib.request, urllib.parse, urllib.
request post 模擬登入 csdn 獲取儲存cookie
# -*- coding=utf-8 -*- import requests from lxml import etree headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) Apple
cookie模擬登入
我這裡使用的是python中的requests.get(url,headers,cookies). 其中headers和cookies都是字典形式。headers作用是模擬瀏覽器,告訴伺服器我不是爬蟲。cookies作用是模擬使用者,告訴伺服器我不是機器人,我是某某使用者。 以知乎為例,he
使用cookie模擬登入用法之cookiejar 在urllib中的使用
# -*- coding: utf-8 -*- """ Created on Fri May 25 16:36:36 2018 @author: Administrator """ from http import cookiejar from urllib import request fro
爬蟲使用cookie模擬登入
使用cooklelib庫和Httpcookieprocessora模擬登入 Cookie是指網站伺服器為了辨別使用者身份和進行 Session跟蹤,而儲存在使用者瀏覽器的文字檔案, Cookie可以保持登入資訊到使用者下次與伺服器的會話。 這裡以人人網為例。人人網中,要訪回某個人的主頁,必須先登入才
嘗試用requests模擬登入CSDN
今天初學用requests庫登入CSDN,在這裡記錄一下心得,有問題請大家多指導。 ,用F12開發者工具抓包,看看提交了哪些資料,記得把Preserve log勾選上,不然在結果裡不顯示了。 現在得到了登入地址和提交表單,注意表單裡紅箭頭指向的兩項,lt和executi
在scrapy上使用cookie模擬登入
下面的例子模擬登入知乎的個人設定頁面 設定代理池 scrapy + tor #安裝tor sudo apt-get install tor sudo /etc/init.d/tor restar
使用cookie模擬登入
1、有些網站需要登入後才能訪問某個頁面,在登入之前,你想抓取某個頁面內容,登陸前與登陸後是不同的,或者不允許的。 使用Cookie和使用代理IP一樣,也需要建立一個自己的opener。在HTTP包中,提供了cookiejar模組,用於提供對Cookie的支援。 2
scrapy獲取cookie,並用cookie模擬登入人人網,爬取資料
1. 先用帳號密碼登入人人網,檢視元素,重新整理頁面,network中找第一個網頁請求,並檢視請求cookie 2.複製貼上修改格式 爬蟲程式碼如下: -*- coding: utf-8 -*- import scrapy class RenrenSpider(
23.模擬登入cookies請求速詢網站資料
採集速詢網站資料:網站地址:http://www.suxun0752.com/index.html網站是需要賬號登入才給返回資訊的,我這裡是直接拿的登入後的cookies請求的資料,cookies我也給了註釋,沒做深層的採集只是試採集了某一月份的。簡單分析一下 :1.首先要先拿到cookies這樣你才有
Python3實現網站模擬登入
一、使用selenium和Chrome模擬登入 # -*- coding:utf-8 -*- # python3.6+selenium3.12+chrome65+Chrome驅動chromedriver.exe # 實現百度自動登入 from selenium import webdri
Scrapy中使用cookie免於驗證登入和模擬登入
Scrapy中使用cookie免於驗證登入和模擬登入 引言 python爬蟲我認為最困難的問題一個是ip代理,另外一個就是模擬登入了,更操蛋的就是模擬登入了之後還有驗證碼,真的是不讓人省心,不過既然有了反爬蟲,那麼就有反反爬蟲的策略,這裡就先介紹一個cookie模擬登陸,後續還有se
C# 利用 HttpWebRequest 和 HttpWebResponse 模擬登入有驗證碼的網站
我們經常會碰到需要程式模擬登入一個網站,那如果網站需要填寫驗證碼的要怎樣模擬登入呢? 這篇文章利用了 HttpWebRequest 和 HttpWebResponse 模擬登入了有驗證碼的網站。 程式設計的介面很簡單,三個TextBox分別輸入使用者名稱、密碼和驗證碼,一個Image控制元
爬蟲入門,模擬登入,動態token,攜帶cookie,密文加密,登入拉勾網,簡單爬蟲案例
import requests import re #匯入相應的庫檔案 headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64
爬蟲工程師教你如何用Python爬蟲模擬登入帶驗證碼網站!
問題分析: 1、爬取網站時經常會遇到需要登入的問題,這是就需要用到模擬登入的相關方法。python提供了強大的url庫,想做到這個並不難。這裡以登入學校教務系統為例,做一個簡單的例子。 在這裡我還是要推薦下我自己建的Python開發學習群:483546416,都是學Python開發的,如果你
Selenium新增Cookie模擬無驗證碼登入
最近爬蟲碰見需要用selenium模擬登入,有驗證碼滑塊+圖片點選驗證,在解決過程中發現一篇很好的示例,雖然是無驗證碼的那種,但是還不錯,先記下來! 程式碼及註釋如下: #!coding=utf-8 import time from selenium import webdriver
模擬登陸CSDN -- Python爬蟲練習之正則表示式和cookie
這周學習的主題是正則表示式和cookie,原本是計劃每天晚上11點下班到家,練上一兩個鍾就把這部分過了,結果這周各種事情和不再狀態,所以沒整完,直至今天才把相關問題過掉。其實這部分也挺不錯的,也並沒有想象中容易,所以好事多磨。這周練習的綜合習題就是模擬登陸C
網站釋出到伺服器後cookie無法登入問題
1.網站在本機測試時登入正常,釋出到伺服器後,在登入頁,輸入賬號密碼,點選登入失效,頁面不跳轉。 本來以為是IE11 edge瀏覽器不支援cookie導致的,但是按照網上各種方法都沒有解決! 最後發現,原來是伺服器時間比正常時間晚了一天導致的,修改伺服器時間日期後,解決登入
帶cookie訪問伺服器實現模擬登入
當我們需要抓取需要登入的網站的資訊或者實現模擬登入時,我們需要得到第一次登入網站的cookie,以便於下次登入可以不用post引數實現登入,只要將cookie放入標頭檔案就好,這是之前寫的模擬登入學校教務的程式碼,記錄以便查閱。 public String
scrapy知乎模擬登入和cookie登入
模擬登入# -*- coding: utf-8 -*- import scrapy from scrapy import cmdline #from scrapy.spiders import CrawlSpider import scrapy from scrap