超簡易Scrapy爬取知乎問題，標籤的爬蟲

阿新 • • 發佈：2018-12-19

上課的作業，備份一下，以免不時之需。

知乎的問題的網頁都是 https://www.zhihu.com/question/ 帶8位神祕數字，我們只需要依次遍歷就解決問題啦，遇到404的情況就直接跳過。用scrapy框架快速開發。

獲取知乎問題標題的程式碼

title = response.selector.xpath("/html/head/title[1]/text()").extract_first()[0:-5]

提取問題標籤的程式碼

head_list = response.css("#root > div > main > div > meta:nth-child(3)").xpath("@content").extract_first().split()

獲取第一個問題點贊數的程式碼

praise_num = response.css("#QuestionAnswers-answers > div > div > div:nth-child(2) > div > div:nth-child(1) > div > meta:nth-child(3)").xpath("@content").extract_first()

scapy的spider程式碼：

# -*- coding: utf-8 -*-
import scrapy
import re

class ZhihuqSpider(scrapy.Spider):

    name = 'zhihuq'
    allowed_domains = ["www.zhihu.com"]
    start_urls = ['https://www.zhihu.com/question/22913650']




    def parse(self, response):
    	
    	#提取標題
    	title = response.selector.xpath("/html/head/title[1]/text()").extract_first()[0:-5]
    	if title:
    		#提取標籤
    		head_list = response.css("#root > div > main > div > meta:nth-child(3)").xpath("@content").extract_first().split()
    		#獲取點贊數
    		praise_num = response.css("#QuestionAnswers-answers > div > div > div:nth-child(2) > div > div:nth-child(1) > div > meta:nth-child(3)").xpath("@content").extract_first()
    	#	if int(praise_num) > 100 :
    		yield{
   				'title':title,
   				'head_list':head_list,
   				'praise_num':praise_num
   			}

    def start_requests(self):

    	url_base = r"https://www.zhihu.com/question/"
    	for i in range(20000000,99999999):
    		url = url_base + str(i)
    		yield scrapy.Request(url,callback=self.parse)

修改setting.py中的設定：

請求頭

DEFAULT_REQUEST_HEADERS = {
    "Host": "www.zhihu.com",
    "Connection": "keep-alive",
    "Cache-Control": "max-age=0",
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36",
    "Referer": "http://www.zhihu.com/people/raymond-wang",
    "Accept-Encoding": "gzip,deflate,sdch",
    "Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4,zh-TW;q=0.2",
}

禁止robot協議：

COOKIES_ENABLED = False

超簡易Scrapy爬取知乎問題，標籤的爬蟲

上課的作業，備份一下，以免不時之需。知乎的問題的網頁都是 https://www.zhihu.com/question/ 帶8位神祕數字，我們只需要依次遍歷就解決問題啦，遇到404的情況就直接跳過。用scrapy框架快速開發。獲取知乎問題標題的程式碼 ti

利用 Scrapy 爬取知乎用戶信息

oauth fault urn family add token post mod lock 　　思路：通過獲取知乎某個大V的關註列表和被關註列表，查看該大V和其關註用戶和被關註用戶的詳細信息，然後通過層層遞歸調用，實現獲取關註用戶和被關註用戶的關註列表和被關註列表，最終實

scrapy爬取知乎問答

登陸參考 https://github.com/zkqiang/Zhihu-Login # -*- coding: utf-8 -*- import scrapy import time import re import base64 import hmac import hashlib impor

python scrapy爬取知乎問題和收藏夾下所有答案的內容和圖片

上文介紹了爬取知乎問題資訊的整個過程,這裡介紹下爬取問題下所有答案的內容和圖片,大致過程相同,部分核心程式碼不同. 爬取一個問題的所有內容流程大致如下: 一個問題url 請求url,獲取問題下的答案個數(我不需要,因為之前獲取問題資訊的時候儲存了問題的回答個數) 通過答案的介面去獲取答案(如果一次獲取5

使用scrapy爬取知乎問題和答案的相關欄位完整程式碼

目前程式健壯性有待提高。尤其是對question的各類異常處理還不夠。但是程式碼已經可用，附上程式碼執行後爬取到的資料。在爬取到101條quetion時已經爬取到2671條answer欄位了。。。。這差距好大。一方面是因為answer有知乎提供的API，更方便爬取，另一個方面

scrapy 爬取知乎登入認證部分（採用cookie登入）

scrapy 爬蟲，為非同步io框架;因此此處選擇，先用requests請求，儲存cookie檔案，然後scrapy爬取前，在入口處載入cookie。 * 登入，儲存cookie方法見前兩節，此處展示的是scrapy讀取cookie * 首先要明確，

通過scrapy，從模擬登入開始爬取知乎的問答資料

這篇文章將講解如何爬取知乎上面的問答資料。首先，我們需要知道，想要爬取知乎上面的資料，第一步肯定是登入，所以我們先介紹一下模擬登入：先說一下我的思路： 1.首先我們需要控制登入的入口，重寫start_requests方法。來控制到這個入口之後，使用

Scrapy分布式爬蟲打造搜索引擎（慕課網）--爬取知乎（二）

false pat 模塊 text 文件的服務協議 .py execute 通過Scrapy模擬登陸知乎通過命令讓系統自動新建zhihu.py文件首先進入工程目錄下再進入虛擬環境通過genspider命令新建zhihu.py scrap

教程+資源,python scrapy實戰爬取知乎最性感妹子的爆照合集(12G)!

一.出發點：之前在知乎看到一位大牛（二胖）寫的一篇文章：python爬取知乎最受歡迎的妹子（大概題目是這個，具體記不清了），但是這位二胖哥沒有給出原始碼，而我也沒用過python,正好順便學一學,所以我決定自己動手搞一搞. 爬取已經完成,文末有 python的原始碼和妹子圖片的百度雲地址二.準備：

用JAVA實現一個爬蟲，爬取知乎的上的內容（程式碼已無法使用）

在學習JAVA的過程中寫的一個程式，處理上還是有許多問題，爬簡單的頁面還行，複雜的就要跪. 爬取內容主要使用URLConnection請求獲得頁面內容，使用正則匹配頁面內容獲得所需的資訊存入檔案，使用正則尋找這個頁面中可訪問的URL，使用佇列儲存未訪問的URL

【Python資料分析】簡單爬蟲，爬取知乎神回覆

歡迎加入Python學習交流QQ群：535993938 禁止閒聊！名額有限！非喜勿進！看知乎的時候發現了一個 “如何正確地吐槽” 收藏夾，

爬取知乎熱榜標題和連接（python，requests，xpath）

app 分享圖片 dea -a mar margin 瀏覽器判斷 agen 用python爬取知乎的熱榜，獲取標題和鏈接。環境和方法：ubantu16.04、python3、requests、xpath 1.用瀏覽器打開知乎，並登錄 2.獲取cookie

Python爬取知乎日報，推送到kindle

最近刷知乎上癮，剛好手頭有一臺kindle，搞一波事情。 1.分析頁面知乎日報的網頁端結果比較清晰，每篇的文章的連結都在 link-button 這個 a 標籤中。用requests + BeautifulSoup 庫可以比較輕鬆的解析。 i

python scrapy框架爬取知乎提問資訊

前文介紹了python的scrapy爬蟲框架和登入知乎的方法. 這裡介紹如何爬取知乎的問題資訊,並儲存到mysql資料庫中. 首先,看一下我要爬取哪些內容: 如下圖所示,我要爬取一個問題的6個資訊: 問題的id(question_id) 標題(title) 問題描述

爬蟲記錄（6）——爬蟲實戰：爬取知乎網站內容，儲存到資料庫，並匯出到Excel

前面幾篇文字我們介紹了相關的爬蟲的方法爬取網站內容和網站的圖片，且儲存到資料庫中。今天呢，我們來次實戰練習，爬取知乎網站跟話題網站top的幾個問題和答案，然後儲存到資料庫中，最後把資料庫中的所有內容再匯出到Excel中。我們還是繼續之前的程式碼，同樣的程式碼

Scrapy學習筆記（3）爬取知乎首頁問題及答案

目標：爬取知乎首頁前x個問題的詳情及問題指定範圍內的答案的摘要 power by: Python 3.6 Scrapy 1.4 json pymysql Step 1——相關簡介 Step 2——模擬登入知乎如果不登入

Python爬取知乎“神回覆”，笑得根本停不下來（附程式碼）

def get_answers_by_page(topic_id, page_no): offset = page_no * 10 url = <topic_url> # topic_url是這個話題對應的url headers = { "User-Agent":

爬取知乎某個問題下所有的圖片

user count view default os.chdir make selenium pytho use 最近在逛知乎時，看到這麽一個問題最高贊的答案寫了個爬蟲，把所有的照片都爬下來了。嘿嘿嘿，技術的力量正好自己也在學習，加上答主的答案是很久之前的，知乎

用PHP爬取知乎的100萬用戶

nbsp 維修知乎發現 body class 直接 blog 爬蟲 http://blog.jobbole.com/88788/ 突然發現大數據 Python的爬蟲能力很強爬取到的數據直接可以用於維修QQ營銷精準營銷用PHP爬取知乎的100萬用戶

爬取知乎Python中文社區信息

urlencode RR amp AD pos LV off In encoding 爬取知乎Python中文社區信息，https://zhuanlan.zhihu.com/zimei 1 import requests 2 from urllib.parse

超簡易Scrapy爬取知乎問題，標籤的爬蟲

相關推薦