python爬蟲學習--pixiv爬蟲(1)--p站爬蟲的登入
阿新 • • 發佈:2019-02-19
前段時間看了點爬蟲的知識,自己也寫了點,不怎麼太好。。。總有錯。。。
冷卻了一段時間繼續我的爬蟲學習。。。
這次我的目標是爬遍pixiv。。。
(雖然有些不可能。。。
不過一點點來。。。
首先我們登陸一下看下p站登陸時的請求頭資訊
同時我們還需要看一下post方法我們要用到的引數
這樣就可以進行p站爬蟲登入功能的編寫了
#coding:UTF-8 import urllib import urllib2 import cookielib url = 'https://www.pixiv.net/login.php' filename = 'cookie.txt' cookie = cookielib.MozillaCookieJar(filename) opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie)) #build_opener函式是用來自定義opener物件的函式 login_data = urllib.urlencode({ 'mode':'login', 'pass':'password',#你的賬號密碼 'pixiv_id':'pixivid',#你的pixivid 'return_to':'/', 'skip':1 }) #這個是p站的登陸資訊 header = { 'Accept-Language':'zh-CN,zh;q=0.8', 'Referer':'https://www.pixiv.net/login.php?return_to=0', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0' } #登陸所使用的請求頭資訊 request = urllib2.Request( url, data = login_data, headers = header) login_pixiv = opener.open(request) #利用前面的請求頭資訊與cookie資訊進行登陸 cookie.save(ignore_discard = True , ignore_expires = True) #登陸成功後進入收藏介面 bookmark_url = 'http://www.pixiv.net/bookmark.php' login_pixiv =opener.open(bookmark_url) page = login_pixiv.read() file_html = open('pixiv-1.html','w') file_html.write(page) file_html.close() print page #其實這個print我只是想看看是否登陸成功
上面的程式碼可已實現p站的登陸,下一步就是進一步分析程式碼將我們想要的圖片爬下來。