Python專案--Scrapy框架(二)

阿新 • • 發佈：2018-12-15

本文主要是利用scrapy框架爬取果殼問答中熱門問答, 精彩問答的相關資訊

環境

win8, python3.7, pycharm

正文

1. 建立scrapy專案檔案

在cmd命令列中任意目錄下執行以下程式碼, 即可在該目錄下建立GuoKeWenDa專案檔案

scrapy startproject GuoKeWenDa

2. 建立爬蟲主程式

在cmd中切換到GuoKeWenDa目錄下, 執行以下程式碼:

cd GuoKeWenDa
scrapy genspider GuoKeWenDaSpider GuoKeWenDaSpider.toscrape.com

建立GuoKeWenDaSpider.py檔案成功

3. 定義要爬取的專案

分析果殼熱門問答和果殼精彩問答, 發現兩頁面的結構一致, 我們爬取其中的主題, 簡介, 關注數, 回答數, 標籤, 文章連結等6個資訊

在items.py中定義

 1 import scrapy
 2 from scrapy.item import Item, Field
 3 
 4 class GuokewendaItem(Item):
 5     # define the fields for your item here like:
 6     # name = scrapy.Field()
 7     title = Field()
 8     intro = Field()
 
 9     attention = Field()
10     answer = Field()
11     label = Field()
12     link = Field()

4. 編寫爬蟲主程式

在GuoKeWenDaSpider.py檔案中編寫:

 1 import scrapy
 2 from scrapy.spiders import CrawlSpider
 3 from scrapy.selector import Selector
 4 from scrapy.http import Request
 5 from GuoKeWenDa.items import 
 GuokewendaItem
 6 
 7 class GuoKeWenDa(CrawlSpider):
 8     name = 'GuoKeWenDa'
 9     allowed_domains = ['GuoKeWenDaSpider.toscrape.com']
10     urls = ['hottest', 'highlight']
11     #對urls進行遍歷
12     start_urls = ['https://www.guokr.com/ask/{0}/?page={1}'.format(str(m),str(n)) for m in urls for n in range(1, 101)]
13     def parse(self, response):
14         item = GuokewendaItem()
15         #初始化原始碼
16         selector = Selector(response)
17         #用xpath進行解析
18         infos = selector.xpath('//ul[@class="ask-list-cp"]/li')
19         for info in infos:
20             title = info.xpath('div[2]/h2/a/text()').extract()[0].strip()
21             intro = info.xpath('div[2]/p/text()').extract()[0].strip()
22             attention = info.xpath('div[1]/p[1]/span/text()').extract()[0]
23             answer = info.xpath('div[1]/p[2]/span/text()').extract()[0]
24             labels = info.xpath('div[2]/div/p/a/text()').extract()  
25             link = info.xpath('div[2]/h2/a/@href').extract()[0]
26             if labels:
27                 label = " ".join(labels)    #用join將列表轉成以" "分隔的字串
28             else:
29                 label =''
30             item['title'] = title
31             item['intro'] = intro
32             item['attention'] = attention
33             item['answer'] = answer
34             item['label'] = label
35             item['link'] = link
36             yield item

5. 儲存到MongoDB

import pymongo

class GuokewendaPipeline(object):
    def __init__(self):
        '''連線MongoDB'''
        client = pymongo.MongoClient(host='localhost')
        db = client['test']
        guokewenda = db['guokewenda']
        self.post= guokewenda
    def process_item(self, item, spider):
        '''寫入MongoDB'''
        info = dict(item)
        self.post.insert(info)
        return item

6. 配置setting

在原有程式碼中去掉以下程式碼的註釋 (快捷鍵"Ctrl" + "/")

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
DOWNLOAD_DELAY = 5
DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
}
ITEM_PIPELINES = {
   'GuoKeWenDa.pipelines.GuokewendaPipeline': 300,
}

7. 新建main.py檔案

在GuoKeWenDa檔案目錄下新建main.py檔案, 編輯:

1 from scrapy import cmdline
2 cmdline.execute('scrapy crawl GuoKeWenDa'.split())

執行main.py檔案

8. 爬取結果

總結

實際中熱門問答只有2頁, 因此遍歷它的第3到100頁就顯得太多餘:

urls = ['hottest', 'highlight']
start_urls = ['https://www.guokr.com/ask/{0}/?page={1}'.format(str(m),str(n)) for m in urls for n in range(1, 101)]

start_urls = ['https://www.guokr.com/ask/hottest/?page={}'.format(str(m)) for m in range(1,3)] + ['https://www.guokr.com/ask/highlight/?page={}'.format(n) for n in range(1,101)]

Python專案--Scrapy框架(二)

本文主要是利用scrapy框架爬取果殼問答中熱門問答, 精彩問答的相關資訊環境 win8, python3.7, pycharm 正文 1. 建立scrapy專案檔案在cmd命令列中任意目錄下執行以下程式碼, 即可在該目錄下建立GuoKeWenDa專案檔案 scrapy startproject Guo

Python的scrapy框架爬蟲專案中加入郵箱通知（爬蟲啟動關閉等資訊以郵件的方式傳送到郵箱）

前面關於傳送郵件的部落格參考：普通郵件部落格——點選開啟連結帶附件的郵件——點選開啟連結準備： 1、建立scrapy爬蟲專案 2、程式碼主要是兩部分：呈上程式碼第一部分是傳送郵

安裝 CentOs 系統及 Python 及 Scrapy 框架

yum安裝軟件 community 自帶 style date ron 界面 ifconfig SQ 1: 先安裝Centos 系統: 為什麽選擇CentOs系統,而不選擇Ubuntu ? 我在Ubuntu上嘗試了三次安裝 python 和 Scrapy ,結果都沒成功,在

三十、python之Flask框架(二)檢視：返回狀態碼、重定向、狀態保持、請求鉤子

一、返回狀態碼和abort函式 1.return直接返回狀態碼: return可以返回自定義的不符合http協議的狀態碼。作用：實現前後端的資料互動。程式碼： from flask import Flask app = Flask(__name__) @app.rou

python 爬蟲 scrapy框架的使用一

1 首先安裝 scrapy ： pip install scrapy 2 用命令建立一個spider工程： scrapy startproject spider5 3 建立一個spider檔案，並指定爬蟲開始的域名： scrapy gensp

python 爬蟲 scrapy框架的使用一

pytho clas 工程本地 emp mpi 原理 png 下載 1 首先安裝 scrapy ： pip install scrapy 2 用命令創建一個spider工程： scrapy startproject spider5 3 創建一個s

Python：scrapy框架爬取校花網男神圖片儲存到本地

爬蟲四部曲，本人按自己的步驟來寫，可能有很多漏洞，望各位大神指點指點 1、建立專案 scrapy startproject xiaohuawang scrapy.cfg: 專案的配置檔案 xiaohuawang/: 該專案的python模組。之後您將在此加入程

python之Scrapy框架的第一個爬蟲

執行： D:\pycodes\python123demo>scrapy crawl demo scrapy crawl demo 學習筆記：程式碼： D:\pycodes>scrapy startproject python123demo Ne

使用python的scrapy框架爬圖+圖文

使用python的scrapy框架爬美女圖我使用的工作環境如下工具 :PyCharm python :3.7.0 框架 :Scrapy 爬圖目標美桌桌布:http://www.win4000.com/ 專案開始前先安裝我們的scrapy框架直接在cdm輸入:pip ins

Python爬蟲scrapy框架Cookie池（微博Cookie池）的使用

下載程式碼Cookie池（這裡主要是微博登入，也可以自己配置置其他的站點網址）下載安裝過後注意看網頁下面的相關基礎配置和操作！！！！！！！！！！！！！自己的設定主要有下面幾步： 1、配置其他設定 2、設定使用的瀏覽器 3、設定模擬登陸

python專案篇-許可權二

許可權粒度控制簡單控制： {% if "users/add" in permissions_list%} 擺脫表控制更改資料庫結構 class Permission(models.Model): title=models.Cha

Python利用scrapy框架，爬取大眾點評部分商鋪資料~

分享一下，自己從0開始，用python爬取資料的歷程。希望可以可以幫到一起從0開始的小夥伴~~加油。首先，我的開發環境是：電腦：macOS Sierra 10.12.6 編譯器：PyCharm + 終端我的電腦自帶的Python版本為2.7，我下載了一個Python3.6。使

python中scrapy框架爬取攜程景點資料

--------------------------------------------------------------------------------------------- [版權申明：本文系作者原創，轉載請註明出處] 文章出處：https://blog.cs

Python爬蟲scrapy框架爬取動態網站——scrapy與selenium結合爬取資料

scrapy框架只能爬取靜態網站。如需爬取動態網站，需要結合著selenium進行js的渲染，才能獲取到動態載入的資料。如何通過selenium請求url，而不再通過下載器Downloader去請求這個url?方法：在request物件通過中介軟體的時候，在中介軟體內部開始

python爬蟲scrapy框架——人工識別登入知乎倒立文字驗證碼和數字英文驗證碼(2)

import scrapy import re import json class ZhihuSpider(scrapy.Spider): name = 'zhihu' allowed_domains = ['www.zhihu.com'] start_urls = ['http

python爬蟲Scrapy框架之中間件

gin 關於 pre ces alt python類分享新建爬蟲 Downloader Middleware處理的過程主要在調度器發送requests請求的時候以及網頁將response結果返回給spider的時候, 所以說下載中間件是結余Scrapy的request

python爬蟲----scrapy框架簡介和基礎應用

就是 all 安裝持久化數據 whl 執行編寫通用一、什麽是scrapy？　　scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架，非常出名，非常強悍。所謂的框架就是一個已經被集成了各種功能（高性能異步下載，隊列，分布式，解析，持久化等）的具有很

[Python爬蟲]Scrapy框架爬取bilibili個人資訊

啟動檔案main.py from scrapy.cmdline import execute execute('scrapy crawl bili_gr_xx'.split()) 執行spider下的爬取檔案 # -*- coding: ut

python爬蟲scrapy框架——人工識別知乎登入知乎倒立文字驗證碼和數字英文驗證碼

import requests try: import cookielib except: import http.cookiejar as cookielib import re import time def get_xsrf(): # 獲取xsrf code res

python爬蟲Scrapy框架之增量式爬蟲

obj lib show prop open html back extract hot 一增量式爬蟲什麽時候使用增量式爬蟲：增量式爬蟲：需求當我們瀏覽一些網站會發現，某些網站定時的會在原有的基礎上更新一些新的數據。如一些電影網站會實時更新最近熱門的電影。那麽，當我

Python專案--Scrapy框架(二)

環境

正文

1. 建立scrapy專案檔案

2. 建立爬蟲主程式

3. 定義要爬取的專案

4. 編寫爬蟲主程式

5. 儲存到MongoDB

6. 配置setting

7. 新建main.py檔案

8. 爬取結果

總結

相關推薦