scrapy爬去知乎使用者+代理池實現

阿新 • • 發佈：2019-01-29

spider：

# -*- coding: utf-8 -*-
import json

from scrapy import Spider, Request

from zhihuuser.items import UserItem
# https://www.cnblogs.com/lei0213/p/7904994.html

class ZhihuSpider(Spider):
    # handle_httpstatus_list = [403]
    name = 'zhihu'

    allowed_domains = ['www.zhihu.com']
    start_urls = ['http://www.zhihu.com/']
    start_user = 'Boyka2016'

    user_url = 'https://www.zhihu.com/api/v4/members/{user}?include={include}'
    user_query = 'data[*].cover,ebook_type,comment_count,voteup_count'

    followers_url = 'https://www.zhihu.com/api/v4/members/{user}/followers?' \
                    'include={include}&offset={offset}&limit={limit}'
    followers_query = 'data[*].answer_count,articles_count,gender,follower_count,' \
                      'is_followed,is_following,badge[?(type=best_answerer)].topics'

    follows_url = 'https://www.zhihu.com/api/v4/members/{user}/followees?include={include}' \
                  '&offset={offset}&limit={limit}'
    follows_query = 'data[*].answer_count,articles_count,gender,follower_count,' \
                    'is_followed,is_following,badge[?(type=best_answerer)].topics'

    # def make_requests_from_url(self,url):
    #     self.logger.debug('Try first time')
    #     return scrapy.Request(url=url, meta={'download_timeout':10},callback=self.parse_user(), dont_filter=False)
    #     return scrapy.Request(url=url, meta={'download_timeout': 10}, callback=self.parse_follows, dont_filter=False)
    #     return scrapy.Request(url=url, meta={'download_timeout': 10}, callback=self.parse_followers, dont_filter=False)

    def start_requests(self):
        yield Request(self.user_url.format(user=self.start_user, include=self.user_query), callback=self.parse_user,dont_filter=True)
        yield Request(self.followers_url.format(user=self.start_user, include=self.followers_query, offset=0, limit=20),
                      callback=self.parse_followers,dont_filter=True)
        yield Request(self.followers_url.format(user=self.start_user, include=self.followers_query, offset=0, limit=20),
                      callback=self.parse_follows,dont_filter=True)

    def parse_user(self, response):
        result = json.loads(response.text)
        item = UserItem()
        for field in item.fields:#item.fields輸出field的所有 名稱
            if field in result.keys():
                item[field] = result.get(field)
        yield item

        #獲取當前使用者的粉絲列表
        yield Request(self.followers_url.format(user=result.get('url_token'), include=self.user_query,
                                                offset=0, limit=20), callback=self.parse_followers,dont_filter=True)
        #獲取當前使用者關注列表
        yield Request(self.follows_url.format(user=result.get('url_token'), include=self.user_query,
                                              offset=0, limit=20), callback=self.parse_follows,dont_filter=True)

    def parse_followers(self, response):
        results = json.loads(response.text)

        if 'data' in results.keys():
            for result in results.get('data'):
                yield Request(self.user_url.format(user=result.get('url_token'), include=self.user_query),
                              callback=self.parse_user,dont_filter=True)

        if 'paging' in results.keys() and results.get('paging').get('is_end') == False:
            next_page = results.get('paging').get('next')
            yield Request(next_page, callback=self.parse_followers,dont_filter=True)

    def parse_follows(self, response):
        results = json.loads(response.text)

        if 'data' in results.keys():
            for result in results.get('data'):
                yield Request(self.user_url.format(user=result.get('url_token'), include=self.user_query),
                              callback=self.parse_user,dont_filter=True)

        if 'paging' in results.keys() and results.get('paging').get('is_end') == False:
            next_page = results.get('paging').get('next')
            yield Request(next_page, callback=self.parse_follows,dont_filter=True)

    def parse(self, response):
        pass

seting.py

# -*- coding: utf-8 -*-

# Scrapy settings for zhihuuser project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://doc.scrapy.org/en/latest/topics/settings.html
#     https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://doc.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'zhihuuser'

SPIDER_MODULES = ['zhihuuser.spiders']
NEWSPIDER_MODULE = 'zhihuuser.spiders'

# Crawl responsibly by identifying yourself (and your website) on the user-agent
# USER_AGENT = 'zhihuuser (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)
# CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)
# See https://doc.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
# DOWNLOAD_DELAY = 3
# The download delay setting will honor only one of:
# CONCURRENT_REQUESTS_PER_DOMAIN = 16
# CONCURRENT_REQUESTS_PER_IP = 16

# Disable cookies (enabled by default)
# COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)
# TELNETCONSOLE_ENABLED = False

# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
    'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:61.0) Gecko/20100101 Firefox/61.0'
}

# Enable or disable spider middlewares
# See https://doc.scrapy.org/en/latest/topics/spider-middleware.html
# SPIDER_MIDDLEWARES = {
#    'zhihuuser.middlewares.ZhihuuserSpiderMiddleware': 543,
# }

# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html

DOWNLOADER_MIDDLEWARES = {
 'zhihuuser.middlewares.ProxyMiddleware':200,
 'scrapy.downloadermiddlewares.retry.RetryMiddleware':543
}


# Enable or disable extensions
# See https://doc.scrapy.org/en/latest/topics/extensions.html
# EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
# }

# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    'zhihuuser.pipelines.MongoPipeline': 300,
}

# Enable and configure the AutoThrottle extension (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/autothrottle.html
# AUTOTHROTTLE_ENABLED = True
# The initial download delay
# AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
# AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
# AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
# AUTOTHROTTLE_DEBUG = False

# Enable and configure HTTP caching (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
# HTTPCACHE_ENABLED = True
# HTTPCACHE_EXPIRATION_SECS = 0
# HTTPCACHE_DIR = 'httpcache'
# HTTPCACHE_IGNORE_HTTP_CODES = []
# HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

# HTTPERROR_ALLOW_ALL=True

MONGO_URI = 'localhost'
MONGO_DB = 'zhihu'

注意downloadmiddleline要設定，這樣才能使用middleline的代理池

# middlewares.py

import requests
import scrapy

class ProxyMiddleware(object):

    def get_proxy(self):
        return requests.get("http://47.106.229.200:5010/get").text

    def delete_proxy(self,proxy):
        requests.get("http://http://47.106.229.200:5010/delete?proxy={}".format(proxy))

    # your spider code

    # def getHtml():
    #     # ....
    #     retry_count = 5
    #     proxy = get_proxy()
    #     while retry_count > 0:
    #         try:
    #             html = requests.get('https://www.example.com', proxies={"http": "http://{}".format(proxy)})
    #             # 使用代理訪問
    #             return html
    #         except Exception:
    #             retry_count -= 1
    #     # 出錯5次, 刪除代理池中代理
    #     delete_proxy(proxy)
    #     return proxy

    # def process_request(self, request,spider):
    #     proxy ='http://'+self.get_proxy()
    #     print("Current IP:Port is %s" % proxy)
    #     request.meta['proxy'] =proxy # 協議://IP地址:埠（如 http://5.39.85.100:30059）
    #     # return request

    def process_response(self, request, response, spider):
        return response
    def process_request(self, request, spider):
        pro_addr = self.get_proxy()
        request.meta['proxy'] = 'http://'+pro_addr

scrapy爬去知乎使用者+代理池實現

spider： # -*- coding: utf-8 -*- import json from scrapy import Spider, Request from zhihuuser.items import UserItem # https://www.cnblo

利用 Scrapy 爬取知乎用戶信息

oauth fault urn family add token post mod lock 　　思路：通過獲取知乎某個大V的關註列表和被關註列表，查看該大V和其關註用戶和被關註用戶的詳細信息，然後通過層層遞歸調用，實現獲取關註用戶和被關註用戶的關註列表和被關註列表，最終實

Python爬去知乎上問題下所有圖片

sts dal b- log email token db4 trie fin from zhihu_oauth import ZhihuClient from zhihu_oauth.exception import NeedCaptchaException cli

scrapy爬取知乎問答

登陸參考 https://github.com/zkqiang/Zhihu-Login # -*- coding: utf-8 -*- import scrapy import time import re import base64 import hmac import hashlib impor

python scrapy爬取知乎問題和收藏夾下所有答案的內容和圖片

上文介紹了爬取知乎問題資訊的整個過程,這裡介紹下爬取問題下所有答案的內容和圖片,大致過程相同,部分核心程式碼不同. 爬取一個問題的所有內容流程大致如下: 一個問題url 請求url,獲取問題下的答案個數(我不需要,因為之前獲取問題資訊的時候儲存了問題的回答個數) 通過答案的介面去獲取答案(如果一次獲取5

超簡易Scrapy爬取知乎問題，標籤的爬蟲

上課的作業，備份一下，以免不時之需。知乎的問題的網頁都是 https://www.zhihu.com/question/ 帶8位神祕數字，我們只需要依次遍歷就解決問題啦，遇到404的情況就直接跳過。用scrapy框架快速開發。獲取知乎問題標題的程式碼 ti

使用scrapy爬取知乎問題和答案的相關欄位完整程式碼

目前程式健壯性有待提高。尤其是對question的各類異常處理還不夠。但是程式碼已經可用，附上程式碼執行後爬取到的資料。在爬取到101條quetion時已經爬取到2671條answer欄位了。。。。這差距好大。一方面是因為answer有知乎提供的API，更方便爬取，另一個方面

scrapy 爬取知乎登入認證部分（採用cookie登入）

scrapy 爬蟲，為非同步io框架;因此此處選擇，先用requests請求，儲存cookie檔案，然後scrapy爬取前，在入口處載入cookie。 * 登入，儲存cookie方法見前兩節，此處展示的是scrapy讀取cookie * 首先要明確，

Scrapy分布式爬蟲打造搜索引擎（慕課網）--爬取知乎（二）

false pat 模塊 text 文件的服務協議 .py execute 通過Scrapy模擬登陸知乎通過命令讓系統自動新建zhihu.py文件首先進入工程目錄下再進入虛擬環境通過genspider命令新建zhihu.py scrap

教程+資源,python scrapy實戰爬取知乎最性感妹子的爆照合集(12G)!

一.出發點：之前在知乎看到一位大牛（二胖）寫的一篇文章：python爬取知乎最受歡迎的妹子（大概題目是這個，具體記不清了），但是這位二胖哥沒有給出原始碼，而我也沒用過python,正好順便學一學,所以我決定自己動手搞一搞. 爬取已經完成,文末有 python的原始碼和妹子圖片的百度雲地址二.準備：

python scrapy框架爬取知乎提問資訊

前文介紹了python的scrapy爬蟲框架和登入知乎的方法. 這裡介紹如何爬取知乎的問題資訊,並儲存到mysql資料庫中. 首先,看一下我要爬取哪些內容: 如下圖所示,我要爬取一個問題的6個資訊: 問題的id(question_id) 標題(title) 問題描述

Scrapy學習筆記（3）爬取知乎首頁問題及答案

目標：爬取知乎首頁前x個問題的詳情及問題指定範圍內的答案的摘要 power by: Python 3.6 Scrapy 1.4 json pymysql Step 1——相關簡介 Step 2——模擬登入知乎如果不登入

Python爬蟲設定代理IP爬取知乎圖片

本文接著前面兩文中提到的內容來繼續完善我們的Python爬蟲。上文地址：通過Python爬蟲爬取知乎某個問題下的圖片設定代理的方式很簡單，可以看看這裡Requests的官方文件，這裡也有對應的中文版介紹，點選開啟連結先簡單說下requests代理的使用，摘自上述提到的文

爬了知乎 200 萬資料，圖說程式設計師都喜歡去哪兒工作

點選上方“CSDN”，選擇“置頂公眾號” 關鍵時刻，第一時間送達！因為最近和朋友吃飯，大家都到了大三季，都在糾結自己該以哪裡作為自己職業發展的起點？也想看看自己的背景，能不能找到靠譜的師哥師

通過scrapy，從模擬登入開始爬取知乎的問答資料

這篇文章將講解如何爬取知乎上面的問答資料。首先，我們需要知道，想要爬取知乎上面的資料，第一步肯定是登入，所以我們先介紹一下模擬登入：先說一下我的思路： 1.首先我們需要控制登入的入口，重寫start_requests方法。來控制到這個入口之後，使用

爬取知乎某個問題下所有的圖片

user count view default os.chdir make selenium pytho use 最近在逛知乎時，看到這麽一個問題最高贊的答案寫了個爬蟲，把所有的照片都爬下來了。嘿嘿嘿，技術的力量正好自己也在學習，加上答主的答案是很久之前的，知乎

知乎用戶群分析--又雙叒叕一只爬蟲爬了知乎20萬用戶

-c spider nor ember tps 數值 don thumb 分享一直想趁著知乎還比較開放爬點數據做分析，因為懶延期至今。爬蟲由Java實現，放在服務器上跑了三四天，可以說是龜速了，畢竟爬蟲和反爬蟲就是應該友好相處的嘛，反反爬蟲和反反反爬蟲互相傷害就沒意思了

用PHP爬取知乎的100萬用戶

nbsp 維修知乎發現 body class 直接 blog 爬蟲 http://blog.jobbole.com/88788/ 突然發現大數據 Python的爬蟲能力很強爬取到的數據直接可以用於維修QQ營銷精準營銷用PHP爬取知乎的100萬用戶

爬取知乎Python中文社區信息

urlencode RR amp AD pos LV off In encoding 爬取知乎Python中文社區信息，https://zhuanlan.zhihu.com/zimei 1 import requests 2 from urllib.parse

爬取知乎話題async使用協程

ret header tps mob ans print __name__ next and import requests import json import time from pyquery import PyQuery import pandas as pd f

scrapy爬去知乎使用者+代理池實現

相關推薦