Python Scrapy框架第一個入門程式示例

阿新 • • 發佈：2020-02-06

本文例項講述了python Scrapy框架第一個入門程式。分享給大家供大家參考，具體如下：

首先建立專案:

scrappy start project maitian

第二步: 明確要抓取的欄位items.py

import scrapy
class MaitianItem(scrapy.Item):
  # define the fields for your item here like:
  # name = scrapy.Field()
  title = scrapy.Field()
  price = scrapy.Field()
  area = scrapy.Field()
  district = scrapy.Field()

第三步: 在spider目錄下建立爬蟲檔案: zufang_spider.py

2.1 建立一個類，並繼承scrapy的一個子類: scrapy.Spider

2.2 自定義爬取名,name="" 後面執行框架需要用到；

2.3 定義爬取目標網址

2.4 定義scrapy的方法

下面是簡單專案:

import scrapy
from maitian.items import MaitianItem
class MaitianSpider(scrapy.Spider):
  name = "zufang"
  start_urls = ['http://bj.maitian.cn/zfall/PG1']
  def parse(self,response):
    for zufang_itme in response.xpath('//div[@class="list_title"]'):
      yield {
        'title': zufang_itme.xpath('./h1/a/text()').extract_first().strip(),'price': zufang_itme.xpath('./div[@class="the_price"]/ol/strong/span/text()').extract_first().strip(),'area': zufang_itme.xpath('./p/span/text()').extract_first().replace('㎡','').strip(),'district': zufang_itme.xpath('./p//text()').re(r'昌平|朝陽|東城|大興|豐臺|海淀|石景山|順義|通州|西城')[0],}
    next_page_url = response.xpath(
      '//div[@id="paging"]/a[@class="down_page"]/@href').extract_first()
    if next_page_url is not None:
      yield scrapy.Request(response.urljoin(next_page_url))

第四步: 在settings.py檔案中設定資料儲存到資料庫

.
.
.
ITEM_PIPELINES = {'maitian.pipelines.MaitianPipeline': 300,}
MONGODB_HOST = '127.0.0.1'
MONGODB_PORT = 27017
MONGODB_DBNAME = 'maitian'
MONGODB_DOCNAME = 'zufang'

第五步: 通過管道pipelines.py 連線上面的操作

import pymongo
from scrapy.conf import settings
class MaitianPipeline(object):
  def __init__(self):
    host = settings['MONGODB_HOST']
    port = settings['MONGODB_PORT']
    db_name = settings['MONGODB_DBNAME']
    client = pymongo.MongoClient(host=host,port=port)
    db = client[db_name]
    self.post = db[settings['MONGODB_DOCNAME']]
  def process_item(self,item,spider):
    zufang = dict(item)
    self.post.insert(zufang)
    return item

其中 middlewares.py 檔案暫不處理

以上簡單的scrapy爬蟲專案搭建完畢了

更多相關內容可檢視本站專題：《Python Socket程式設計技巧總結》、《Python正則表示式用法總結》、《Python資料結構與演算法教程》、《Python函式使用技巧總結》、《Python字串操作技巧彙總》、《Python入門與進階經典教程》及《Python檔案與目錄操作技巧彙總》

希望本文所述對大家基於Scrapy框架的Python程式設計有所幫助。

Python Scrapy框架第一個入門程式示例

本文例項講述了python Scrapy框架第一個入門程式。分享給大家供大家參考，具體如下：

Python利用Scrapy框架爬取豆瓣電影示例

本文例項講述了Python利用Scrapy框架爬取豆瓣電影。分享給大家供大家參考，具體如下：

Python Scrapy框架：通用爬蟲之CrawlSpider用法簡單示例

本文例項講述了Python Scrapy框架：通用爬蟲之CrawlSpider用法。分享給大家供大家參考，具體如下：

QT的第一個入門小程式

專案的檔案結構工程類檔案 0708day08.pro #------------------------------------------------- #

Mybatis 第一個例項程式入門

首先使用idea建立一個maven專案新增以下依賴，連結資料庫，使用mybaties，使用單元測試的依賴

Uni-app極速入門 - 第一個小程式

Uni-app 介紹官網：https://www.dcloud.io/index.html uni-app是為js開發者提供的一個全端開發框架，可以開發一次編譯為web、App、小程式（微信/阿里/百度/位元組跳動/QQ）、快應用。

【Spark研究】極簡 Spark 入門筆記——安裝和第一個迴歸程式

現在的各種資料處理技術更新換代太快，新的名詞和工具層出不窮，像是 Hadoop 和 Spark 這些，最近幾年著實火了一把，但自己一直沒精力和時間去嘗試和學習。特別是聽說這些工具配置起來比較複雜，就更懶得去折騰。在這

python同時替換多個字串方法示例

本文介紹了python同時替換多個字串方法示例，分享給大家，具體如下： import re

使用Python+selenium實現第一個自動化測試指令碼

最近在學web自動化，記錄一下學習過程。此處我選用python3.6+selenium3.0，均用最新版本，以適應未來需求。

簡述python Scrapy框架

一、Scrapy框架簡介 Scrapy是用純Python實現一個為了爬取網站資料，提取結構性資料而編寫的應用框架，用途非常廣泛。利用框架，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片

python-scrapy框架初探

內建支援 selecting and extracting 使用擴充套件的CSS選擇器和XPath表示式從HTML/XML源中獲取資料，並使用正則表示式提取助手方法。

1-5第一個控制檯程式

1-5第一個控制檯程式選單欄檔案 —> 新建 —> 專案 —> 選擇控制檯應用程式更改一下名稱和位置點選確定，生成一個Program.cs檔案，如下圖 Main是主函式的意思在主函式中寫入Console.WriteLine(“

Python-django建立第一個專案

使用 django-admin.py 來建立 HelloWorld 專案： django-admin.py startproject HelloWorld 建立完成後我們可以檢視下專案的目錄結構：

【初學Python】01-第一個小說爬蟲

在之前建站的時候，用C#做過一個爬圖片網站圖片的介面，程式碼寫了一大串，最近看到朋友寫爬蟲，發現程式碼量是真滴少，於是乎瞭解學習了一下Python，實現了個最簡單的小說爬蟲，沒有什麼高階功能，也沒用多執行緒之

python Scrapy框架原理解析

Python 爬蟲包含兩個重要的部分：正則表示式和Scrapy框架的運用，正則表示式對於所有語言都是通用的，網路上可以找到各種資源。

Scrapy編寫第一個爬蟲

技術標籤：爬蟲python Scrapy編寫第一個爬蟲 Scrapy編寫第一個爬蟲，Spider用於編寫從單個網站（或者多個網站）爬取資料的類。其中包括了一個用於下載的初始URL，如何爬取網頁中的其他連結以及如何分析網站頁

第一個小程式

技術標籤：小程式cmd 第一個小程式’Hello,Hacker!’ 推薦程式：notepad++ [安裝]:網頁直接搜尋便可下載

Python Scrapy框架

1.安裝Scrapy框架在目錄下進入命令列，輸入以下安裝Scrapy框架命令 pip install Scrapy

第一個類程式 part1

寫的第一個類的程式，當時也是參考了《從入門到實踐》這本python入門書籍，類與物件的概念很好理解，相當於拿著一份建築圖紙去蓋很多房子，房子呢，整體框架一樣，有些細節又不一樣，就像有的要樓梯，有的要電梯，這

建議收藏！獻給Python初學者的22個入門小專案，練手必備！

Python的各種第三方庫，能夠完成很多好玩的操作，給大家展現幾個Python實現的小玩意，看看大家都做過沒~

Python Scrapy框架第一個入門程式示例

相關推薦