1. 程式人生 > >python爬蟲學習--pixiv爬蟲(1)--p站爬蟲的登入

python爬蟲學習--pixiv爬蟲(1)--p站爬蟲的登入

前段時間看了點爬蟲的知識,自己也寫了點,不怎麼太好。。。總有錯。。。

冷卻了一段時間繼續我的爬蟲學習。。。

這次我的目標是爬遍pixiv。。。

(雖然有些不可能。。。

不過一點點來。。。

首先我們登陸一下看下p站登陸時的請求頭資訊

同時我們還需要看一下post方法我們要用到的引數

這樣就可以進行p站爬蟲登入功能的編寫了

#coding:UTF-8

import urllib
import urllib2
import cookielib

url = 'https://www.pixiv.net/login.php'
filename = 'cookie.txt'

cookie = cookielib.MozillaCookieJar(filename)
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
#build_opener函式是用來自定義opener物件的函式

login_data = urllib.urlencode({
    'mode':'login',
    'pass':'password',#你的賬號密碼
    'pixiv_id':'pixivid',#你的pixivid
    'return_to':'/',
    'skip':1
    })
#這個是p站的登陸資訊
header = {
    'Accept-Language':'zh-CN,zh;q=0.8',
    'Referer':'https://www.pixiv.net/login.php?return_to=0',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0'
    }
#登陸所使用的請求頭資訊
request = urllib2.Request(
    url,
    data = login_data,
    headers = header)

login_pixiv = opener.open(request)
#利用前面的請求頭資訊與cookie資訊進行登陸

cookie.save(ignore_discard = True , ignore_expires = True)
#登陸成功後進入收藏介面
bookmark_url = 'http://www.pixiv.net/bookmark.php'

login_pixiv =opener.open(bookmark_url)
page = login_pixiv.read()

file_html = open('pixiv-1.html','w')
file_html.write(page)
file_html.close()

print page  #其實這個print我只是想看看是否登陸成功

上面的程式碼可已實現p站的登陸,下一步就是進一步分析程式碼將我們想要的圖片爬下來。