scrapy爬蟲之crawlspide爬取豆瓣近一週同城活動

阿新 • • 發佈：2019-02-17

簡介

本文主要介紹crawlspider爬取豆瓣近一週同城活動。

要點：item／itemloader利用input_processor/output_processor對爬取的資料進行過濾。

實現

為了演示資料過濾，我們只爬取到第二頁的資料。

一、定義item

vim items.py
class tongcheng(scrapy.Item):
        #主題
        title = scrapy.Field()
        #時間
        time = scrapy.Field()
        #地址
        address = scrapy.Field 
(output_processor=Join())
        #票價
        money = scrapy.Field()
        #感興趣人數
        intrest = scrapy.Field()
        #參加人數
        join = scrapy.Field()

二、定義爬蟲

# -*- coding: utf-8 -*-
#爬取豆瓣近一週同城活動
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from 
 scrapy.loader import ItemLoader
from douban.items import tongcheng


class TongchengSpider(CrawlSpider):
    name = 'tongcheng'
    allowed_domains = ['douban.com']
    start_urls = ['https://www.douban.com/location/shenzhen/events/week-all']

    rules = (
        #匹配到第二頁
        Rule(LinkExtractor(allow=r'start=10' 
)),
        ＃獲取每頁資料
        Rule(LinkExtractor(allow=r'https://www.douban.com/event/\d+/'),callback='parse_item'),
    )

    def parse_item(self, response):
        loader = ItemLoader(item=tongcheng(),selector=response)
        info = loader.nested_xpath('//div[@class="event-info"]')
        info.add_xpath('title','h1[@itemprop="summary"]/text()')
        info.add_xpath('time','div[@class="event-detail"]/ul[@class="calendar-strs"]/li/text()')
        info.add_xpath('address','div[@itemprop="location"]/span[@class="micro-address"]/span[@class="micro-address"]/text()')
        info.add_xpath('money','div[@class="event-detail"]/span[@itemprop="ticketAggregate"]/text()')
        info.add_xpath('intrest','div[@class="interest-attend pl"]/span[1]/text()')
        info.add_xpath('join','div[@class="interest-attend pl"]/span[3]/text()')

        yield loader.load_item()

三、執行爬蟲

scrapy crawl toncheng -o tongcheng.json
vi toncheng.json
[
{"money": ["費用:  \n                100元(預售)起\n              "], "address": "深圳  南山區  華僑城創意園 北區C2棟北側 B10現場", "join": ["65 "], "intrest": ["63 "], "title": ["張瑋瑋和郭龍“沿江而來”巡演深圳站 @B10現場\n\n\n            "]},
{"money": ["費用:  \n                \n                    93 - 281元\n              "], "address": "深圳  南山文體中心劇院 小劇場 深圳市南山區南山大>道南山文體中心", "join": ["0 "], "intrest": ["1 "], "title": ["2018第五屆城市戲劇節 以色列國寶級作家名著改編 王子川自導自演《雅各比和雷彈頭》-深圳\n\n\n            "]},
{"money": ["費用:  \n                \n                    95 - 361元\n              "], "address": "深圳  南山文體中心劇院大劇院 南山大道與南頭街交匯
處南山文體中心", "join": ["6 "], "intrest": ["10 "], "title": ["【萬有音樂系】My Song--Sophie Zelmani 蘇菲 · 珊曼妮2018巡迴演唱會\n\n\n            "]},
{"money": ["費用:  \n                \n                    263 - 357元\n              "], "address": "深圳  深圳市少年宮劇場 深圳市福田區福中一路市少>年宮", "join": ["67 "], "intrest": ["158 "], "title": ["孟京輝戲劇作品《一個陌生女人的來信》深圳站\n\n\n            "]},
{"money": ["費用:  \n                \n                    170 - 483元\n              "], "address": "深圳  華潤深圳灣體育中心＂春繭＂體育場 深圳市濱>海大道3001號（南山區科苑南路與海德三道交匯處）", "join": ["37 "], "intrest": ["66 "], "title": ["亞洲之巔群星演唱會-深圳站\n                ", "\n\n\n            "]},
......
]

從上面的輸出我們看到：
title欄位帶空格，我們需要的是去除空格的資料；
money欄位是[“費用: \n \n 263 - 357元\n “]，我們需要的是［”263 - 357元”］；

我們需要使用item/itemloader的input_processor/output_processor對資料進行過濾，例如我們已經對address欄位使用了output_processor=Join()，我們還需使用MapCompose方法進行過濾。

四、MapCompose

class scrapy.loader.processors.MapCompose(*functions, **default_loader_context)

MapCompose方法接受的資料是可迭代的，資料會經過第一個function進行處理，生成的新的迭代資料會進入第二個函式，以此類推直至所有函式都處理完，生成最終的迭代資料。

1、title欄位
title欄位需要unicode.strip去處空格，在item中定義如下：

 title = scrapy.Field(input_processor=MapCompose(unicode.strip))

MapCompose通常被用作input_processor，因為我們用selector提取返回的的是可迭代資料。
另外scrapy 會將含有中文的field輸出為 unicode字串形式，因此我們使用unicode.strip來去除空格。

2、money欄位
money欄位提取的是[“費用: \n \n 263 - 357元\n “]，我們只要”263 - 357元”。具體實現如下：

vim items.py
def filter_string(x):
        str = x.split(':')
        return str[1].strip()

money = scrapy.Field(input_processor=MapCompose(filter_string))

filter_string函式的功能就是提取263 - 357元。我們通過MapCompose中呼叫filter_string，將提取的資料過濾為我們想要的資料。

因此，完整的item程式碼如下：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.loader.processors import Join, MapCompose, TakeFirst

def filter_string(x):
        str = x.split(':')
        return str[1].strip()

class tongcheng(scrapy.Item):
        title = scrapy.Field(input_processor=MapCompose(unicode.strip))
        time = scrapy.Field()
        address = scrapy.Field(output_processor=Join())
        money = scrapy.Field(input_processor=MapCompose(filter_string))
        intrest = scrapy.Field()
        join = scrapy.Field()

通過定義item後，我們最終提取的資料如下：

[
{"money": ["100元(預售)起"], "address": "深圳  南山區  華僑城創意園 北區C2棟北側 B10現場", "join": ["65 "], "intrest": ["63 "], "title": ["張瑋瑋和郭>龍“沿江而來”巡演深圳站 @B10現場"]},
{"money": ["93 - 281元"], "address": "深圳  南山文體中心劇院 小劇場 深圳市南山區南山大道南山文體中心", "join": ["0 "], "intrest": ["1 "], "title": ["2018第五屆城市戲劇節 以色列國寶級作家名著改編 王子川自導自演《雅各比和雷彈頭》-深圳"]},
{"money": ["95 - 361元"], "address": "深圳  南山文體中心劇院大劇院 南山大道與南頭街交匯處南山文體中心", "join": ["6 "], "intrest": ["10 "], "title": ["【萬有音樂系】My Song--Sophie Zelmani 蘇菲 · 珊曼妮2018巡迴演唱會"]},
{"money": ["263 - 357元"], "address": "深圳  深圳市少年宮劇場 深圳市福田區福中一路市少年宮", "join": ["67 "], "intrest": ["158 "], "title": ["孟京輝戲
劇作品《一個陌生女人的來信》深圳站"]},
{"money": ["170 - 483元"], "address": "深圳  華潤深圳灣體育中心＂春繭＂體育場 深圳市濱海大道3001號（南山區科苑南路與海德三道交匯處）", "join": ["37 "], "intrest": ["66 "], "title": ["亞洲之巔群星演唱會-深圳站", ""]},
{"money": ["59元"], "address": "深圳  海上世界文化藝術中心 深圳市南山區蛇口望海路1187號", "join": ["80 "], "intrest": ["116 "], "title": ["設計互聯開>幕大展——“數字之維”及“設計的價值”展覽"]},
.....
]

scrapy爬蟲之crawlspide爬取豆瓣近一週同城活動

簡介本文主要介紹crawlspider爬取豆瓣近一週同城活動。要點：item／itemloader利用input_processor/output_processor對爬取的資料進行過濾。實現為了演示資料過濾，我們只爬取到第二頁的資料。一、定

python 爬取豆瓣網搜尋結果同城活動資料

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料 bs4:網頁程式碼解析以下是原始碼： #!coding=utf-8 import requests

【Python爬蟲】Scrapy框架運用1—爬取豆瓣電影top250的電影資訊(1)

一、Step step1: 建立工程專案 1.1建立Scrapy工程專案 E:\>scrapy startproject 工程專案 1.2使用Dos指令檢視工程資料夾結構 E:\>tree /f step2: 建立spid

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書信息

Python 編程語言 Python爬蟲先來看看頁面長啥樣的:https://book.douban.com/top250 我們將要爬取哪些信息：書名、鏈接、評分、一句話評價……1. 爬取單個信息我們先來嘗試爬取書名，利用之前的套路，還是先復制書名的xpath：得到第一本書《追風箏的人》的書名xpath如下：

scrapy初探之實現爬取小說

scrapy 爬取小說一、前言上文說明了scrapy框架的基礎知識，本篇實現了爬取第九中文網的免費小說。二、scrapy實例創建 1、創建項目 C:\Users\LENOVO\PycharmProjects\fullstack\book9>scrapy startproject book

python3[爬蟲實戰] 爬蟲之requests爬取新浪微博京東客服

爬取的內容為京東客服的微博及評論思路:主要是通過手機端訪問新浪微博的api介面，然後進行資料的篩選，這個主要是登陸上去的微博的url連結，可以看到的介面：這裡主要爬取的內容為：說說，說說下面的評論條目雖然很簡單，但是，不得不說句mmp，爬

Scrapy爬蟲-大資料爬取時記憶體過大的解決辦法(轉)

scrapy有兩個佇列：記憶體佇列和磁碟佇列. 最簡單的辦法，設定持久化吧(-s JOBDIR選項)，可以通過磁碟佇列檢視request。 scrapy crawl somespider -s JOBDIR=myspider 執行scrapy後，會在

Python爬蟲實戰(3)-爬取豆瓣音樂Top250資料(超詳細)

前言首先我們先來回憶一下上兩篇爬蟲實戰文章：第一篇：講到了requests和bs4和一些網頁基本操作。第二篇：用到了正則表示式-re模組今天我們用lxml庫和xpath語法來爬蟲實戰。 1.安裝lxml庫 window：直接用pip去

[Python/爬蟲]利用xpath爬取豆瓣電影top250

今天學習了一下xpath 感覺功能非常的強大，但是如果不太懂前端的小夥伴們可能比較吃力，建議看一下html的一些語法結構，程式碼如下： #!/usr/bin/env python import r

爬蟲]利用xpath爬取豆瓣電影top250（轉）

今天學習了一下xpath 感覺功能非常的強大，但是如果不太懂前端的小夥伴們可能比較吃力，建議看一下html的一些語法結構，程式碼如下： #!/usr/bin/env python import re import requests import lxml.html url

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書資訊

我們將要爬取哪些資訊：書名、連結、評分、一句話評價…… 1. 爬取單個資訊我們先來嘗試爬取書名，利用之前的套路，還是先複製書名的xpath：得到第一本書《追風箏的人》的書名xpath如下： //*[@id=

Python爬蟲入門 | 2 爬取豆瓣電影資訊

這是一個適用於小白的Python爬蟲免費教學課程，只有7節，讓零基礎的你初步瞭解爬蟲，跟著課程內容能自己爬取資源。看著文章，開啟電腦動手實踐，平均45分鐘就能學完一節，如果你願意，今天內你就可以邁入爬蟲的大門啦~ 好啦，正式開始我們的第二節課《爬取豆瓣電影資訊

Python爬蟲之如何爬取抖音小姐姐的視訊

介紹這次爬的是當下大火的APP--抖音，批量下載一個使用者釋出的所有視訊。各位也應該知道，抖音只

爬蟲之小說爬取

1 from bs4 import BeautifulSoup 2 from urllib import request 3 import requests 4 import re 5 import sys 6 def Down_this_chapter(chapter_url,name):#單

[原創]python爬蟲之BeautifulSoup,爬取網頁上所有圖片標題並存儲到本地文件

%20 分享圖片本地 col cbc quest 執行 python div from bs4 import BeautifulSoup import requests import re import os r = requests.get("https:/

python 爬蟲之requests爬取頁面圖片的url，並將圖片下載到本地

大家好我叫hardy 需求：爬取某個頁面，並把該頁面的圖片下載到本地思考：　　img標籤一個有多少種類型的src值？三種：1、以http開頭的網路連結。2、以“/”開頭絕對路徑。3、以“./”開頭相對路徑。當然還有其他型

scrapy爬蟲之item/itemloader機制爬取豆瓣電影top250

簡介前面的博文網頁的基本解析流程就是先通過 css/xpath 方法進行解析，然後再把值封裝到 Item 中，如果有特殊需要的話還要對解析到的資料進行轉換處理，這樣當解析程式碼或者資料轉換要求過多的時候，會導致程式碼量變得極為龐大，從而降低了可維護性。同時在

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

Python開發簡單爬蟲之靜態網頁抓取篇：爬取“豆瓣電影 Top 250”電影數據

模塊歲月 python開發 IE 女人 bubuko status 公司使用目標：爬取豆瓣電影TOP250的所有電影名稱，網址為：https://movie.douban.com/top250 1）確定目標網站的請求頭：打開目標網站，在網頁空白處點擊鼠標右鍵，

小白scrapy爬蟲之爬取簡書網頁並下載對應鏈接內容

tps python 分享列表 scrapy 網頁 pytho 分享圖片介紹 *準備工作：爬取的網址：https://www.jianshu.com/p/7353375213ab 爬取的內容：下圖中python庫介紹的內容列表，並將其鏈接的文章內容寫進文本文件中小

scrapy爬蟲之crawlspide爬取豆瓣近一週同城活動

簡介

實現

相關推薦