python爬蟲學習--pixiv爬蟲(1)--p站爬蟲的登入

阿新 • • 發佈：2019-02-19

前段時間看了點爬蟲的知識，自己也寫了點，不怎麼太好。。。總有錯。。。

冷卻了一段時間繼續我的爬蟲學習。。。

這次我的目標是爬遍pixiv。。。

（雖然有些不可能。。。

不過一點點來。。。

首先我們登陸一下看下p站登陸時的請求頭資訊

同時我們還需要看一下post方法我們要用到的引數

這樣就可以進行p站爬蟲登入功能的編寫了

#coding:UTF-8

import urllib
import urllib2
import cookielib

url = 'https://www.pixiv.net/login.php'
filename = 'cookie.txt'

cookie = cookielib.MozillaCookieJar(filename)
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
#build_opener函式是用來自定義opener物件的函式

login_data = urllib.urlencode({
    'mode':'login',
    'pass':'password',#你的賬號密碼
    'pixiv_id':'pixivid',#你的pixivid
    'return_to':'/',
    'skip':1
    })
#這個是p站的登陸資訊
header = {
    'Accept-Language':'zh-CN,zh;q=0.8',
    'Referer':'https://www.pixiv.net/login.php?return_to=0',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0'
    }
#登陸所使用的請求頭資訊
request = urllib2.Request(
    url,
    data = login_data,
    headers = header)

login_pixiv = opener.open(request)
#利用前面的請求頭資訊與cookie資訊進行登陸

cookie.save(ignore_discard = True , ignore_expires = True)
#登陸成功後進入收藏介面
bookmark_url = 'http://www.pixiv.net/bookmark.php'

login_pixiv =opener.open(bookmark_url)
page = login_pixiv.read()

file_html = open('pixiv-1.html','w')
file_html.write(page)
file_html.close()

print page  #其實這個print我只是想看看是否登陸成功

上面的程式碼可已實現p站的登陸，下一步就是進一步分析程式碼將我們想要的圖片爬下來。

python爬蟲學習--pixiv爬蟲(1)--p站爬蟲的登入

前段時間看了點爬蟲的知識，自己也寫了點，不怎麼太好。。。總有錯。。。冷卻了一段時間繼續我的爬蟲學習。。。這次我的目標是爬遍pixiv。。。（雖然有些不可能。。。不過一點點來。。。首先我們登陸一下看下p站登陸時的請求頭資訊同時我們還需要看一下post方法我

Python資料爬蟲學習筆記（1）讀取併合並Excel

需求：寫一個Python程式，實現多個Excel表格的合併。準備：在E盤3個待合併的測試檔案，如下所示：在每個檔案中的sheet1和sheet2中隨便寫點東西。（1）簡便方法： import openpyxl wb1 = openpyxl.load

python爬蟲學習筆記——使用requests庫編寫爬蟲（1）

首先感謝http://python.jobbole.com ，我是看了此站的文章之後才有寫此文的想法，本人也是開始學python不久，此文僅僅是記錄一些學習過程中遇到的問題，邊學邊寫，初次寫這樣的博文，差錯在所難免，如有差錯也請指出，感激不盡。

python爬蟲學習--pixiv爬蟲(2)--國際排行榜的圖片爬取

之前用面向過程的形式寫了一下pixiv爬蟲的登入... 覺得還是面向物件好一些... 那就先把登入過程重寫一下... class Pixiv_Spider: def __init__(self): self.p_id = '' s

爬蟲學習筆記（1）

在訪問網站時，向伺服器傳送請求主要有兩種方式 GET方法請求指定的頁面資訊，並且返回實體主體。 POST方法向指定資源提交資料進行處理請求（例如提交表單或者上傳檔案），資料被包含在請求體中，POST請求可能會導致新的資源建立和/或已有資源的修改。網頁抓取-----就是將URL中指定

爬蟲學習筆記第1章

人說最好的學習是教學，我深以為然。為了理清學習這本書《Python3爬蟲網路爬蟲開發實戰》的一些概念，開始寫本系列。這個系列的博文將提煉書中重點核心理念記錄我在學習這本書時遇到的非技術性問題及其解決方案給出我個人的觀點和建議有些內容我暫時不會寫到——

爬蟲學習筆記【1】使用 urllib 獲取 www 資源

1. 掌握普通網頁的獲取方法檢視 urllib.request 的基本資訊 urllib.request 中最常用的方法是 urlopen() ,它也是我們使用 urllib 獲取普通網頁的基本方法。在應用之前，我們先看一下 urllib 的原始碼，這是從事IT軟體類

Python3爬蟲學習筆記（1.urllib庫詳解）

1.什麼是爬蟲：略，到處都有講解。雖然是入門，不過沒有Python基礎的同學看起來可能費勁，建議稍學下Python 之前學習前端知識也是為了能看懂HTML，便於爬蟲學習，建議瞭解下前端知識 2.re

p站爬蟲：快速上手爬高檔圖片

廢話不多說，直接擼程式碼，簡單又粗暴：https://github.com/hilqiqi0/crawler/tree/master/pixiv-crawl 這是一個關於pixiv網站的一個登陸爬蟲，採用的是scrapy框架，另外需要翻牆（若是你的電腦連 https://w

Python爬蟲學習（二）---- 完整的爬蟲體系

完整的爬蟲體系上節已經對爬蟲有了簡單的瞭解和實踐，接下來我通過慕課網的途徑學習到了一個相對完整的框架。為了記錄，特將此經除錯體系置於此，互相學習。平臺 MacOS 10.13.3 PyCharm 2016 Python3.6 主函式 Pyt

Python資料爬蟲學習筆記（19）Scrapy模擬登入實現豆瓣使用者資訊爬蟲

一、需求：在豆瓣官網中，使用Scrapy實現模擬登入，並爬取登入後的個人中心介面中的使用者名稱及日記資訊資料。二、實現思路： 1、關於使用者名稱與密碼以及其提交網址：觀察登入網頁的原始碼，注意到使用者名稱與密碼都使用不同name屬性的input來輸入

Python機器學習：7.1 集成學習

src 概率森林技術分享 ali 集成學習 tag 相關目錄集成學習背後的思想是將不同的分類器進行組合得到一個元分類器，這個元分類器相對於單個分類器擁有更好的泛化性能。比如，假設我們從10位專家那裏分別得到了對於某個事件的預測結果，集成學習能夠對這10個預測結果進行

python的學習筆記/002-1（2018-5-18 ）

python1.模塊初始化1) getpass 模塊程序實例：import getpass_password=‘penny‘_password=‘abc123’passname=input(passname:)password=getpass.getpass("password:")

python機器學習應用mooc_(1)KNN

KNN 定義通過計算待分類資料點，與已有資料集中的所有資料點的距離。取距離最小的前k個點，根據“少數服從多數”的原則，將這個資料點劃分為出現次數最多的那個類別。 sklearn引數說明

吳裕雄 python 機器學習-DMT（1）

import numpy as np import operator as op from math import log def createDataSet(): dataSet = [[1, 1, 'yes'], [1, 1, 'yes'],

python的學習筆記案例1--匯率兌換3.0

繼續玩，在2.0的基礎上再增加點功能，3.0 使用者可以無限次的輸入貨幣金額，直到使用者退出。使用while 迴圈語句可以讓使用者迴圈的輸入貨幣金額。 """ 作者：lanxingbudui 版本：3.0 功能：匯率兌換日期：2018-12-10 2

python的學習筆記案例1--匯率兌換2.0

最近開始系統學習Python，前面已經寫了一個匯率兌換1.0版本，就是簡單輸入一個金額，得到兌換後的金額。本次要升級了，可以判斷是人民幣還是美元，然後在轉化對應的金額。程式碼後面附帶解釋，就不在程式碼中解釋太多了。鮮花少說，繼續學

python的學習筆記案例1--匯率兌換1.0

一、python程式元素：縮排註釋----加入說明資訊，不被執行。單行以“#”開頭；多行使用""" """ 三組雙引號 eclipse的快捷鍵--刪除一行Ctrl+D

爬蟲學習之基於Scrapy的網路爬蟲

在上一篇文章《爬蟲學習之一個簡單的網路爬蟲》中我們對爬蟲的概念有了一個初步的認識，並且通過Python的一些第三方庫很方便的提取了我們想要的內容，但是通常面對工作當作複雜的需求，如果都按照那樣的方式來處理效率非常的低，這通常需要你自己去定義並實現很多非常基礎的爬蟲框架上的功能，或者需要組合很多Python第

爬蟲學習之一個簡單的網路爬蟲

概述這是一個網路爬蟲學習的技術分享，主要通過一些實際的案例對爬蟲的原理進行分析，達到對爬蟲有個基本的認識，並且能夠根據自己的需要爬到想要的資料。有了資料後可以做資料分析或者通過其他方式重新結構化展示。什麼是網路爬蟲網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間

python爬蟲學習--pixiv爬蟲(1)--p站爬蟲的登入

相關推薦