Pyspider爬蟲簡單框架

阿新 • • 發佈：2018-11-10

pyspide

pyspider簡單介紹

pyspider的使用

實戰

pyspider簡單介紹

　　一個國人編寫的強大的網路爬蟲系統並帶有強大的WebUI。採用Python語言編寫，分散式架構，支援多種資料庫後端，

強大的WebUI支援指令碼編輯器，任務監視器，專案管理器以及結果檢視器

官方文件： http://docs.pyspider.org/en/latest/

開源地址： http://github.com/binux/pyspider

中文文件： http://www.pyspider.cn/

pyspider框架的特性

python指令碼控制，可以使用用任何你喜歡的html解析包（內建pyquery）

WEB介面編寫除錯指令碼，啟停指令碼，監控執行狀態，檢視活動內容，獲取結果產出
資料庫儲存支援MySQl，MongoDB，Redis，SQLite，Elasticsearch，PostgreSQL及SQLAlchemy
佇列服務支援RabbitMQ，Beanstalk，Redis和Kombu
支援抓取JavaScript的頁面
元件可替換，支援單機/分散式部署，支援Docker的部署
強大的排程控制，支援超時重爬及優先順序設定
支援python2&3

pyspider的安裝

pip install pyspider

安裝完成後執行，在cmd視窗輸入pyspider

pyspider的使用：

在瀏覽器中輸入最後一行的IP和埠號。
在web控制檯點create按鈕新建專案。

儲存後開啟程式碼編輯器（程式碼編輯器預設有簡單的示例程式碼）

右側就是程式碼編輯器，，以後可以直接在這裡新增和修改程式碼。程式碼如下：

程式碼分析：

def on_start(self)方法是入口程式碼。當在web控制檯點選run按鈕時會執行此方法。
self.crawl(url, callback=self.index_page)這個方法是呼叫API生成一個新的爬蟲任務，這個任務被新增到待爬取佇列

def index_page(self.response)這個方法獲取一個response物件。response.doc是pyquery物件的一個擴充套件方法。pyquery是一個類似於jquery的物件選擇器。
def detail_page(self, response)返回一個結果即物件。這個結果預設會被新增到resultdb資料庫（如果啟動時沒有指定資料庫預設呼叫sqlite資料庫）。也可以重寫on_result(self, result) 方法來指定儲存位置。

當完成指令碼編寫，除錯無誤後，請先儲存指令碼，然後返回控制檯首頁
直接點選專案狀態status那欄，把狀態由TTODO改成debug或running
最後點選專案最右邊那個RUN按鈕啟動專案

當progress那欄有資料顯示說明啟動成功。就可以點選右側的result檢視結果了

技巧：

當需要刪除專案時，將status狀態改成STOP，再將group寫上delete，pyspider預設在STOP的delete狀態下儲存24小時後刪除

enable css selector helper可以在點選了web 的網頁預覽下，獲取網頁的css選擇器

點選圖片箭頭的按鍵，就會生成對應css選擇器在游標所在的位置處

follows是根據程式碼請求所跟進的url連結，點選實現網頁跳轉
當代碼調試出錯的時候，要回到最初的首頁開始重新除錯

實戰

爬取鏈家網的資訊：

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2018-11-02 10:54:11
# Project: ddd

from pyspider.libs.base_handler import *


class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('https://cs.lianjia.com/ershoufang/', callback=self.index_page, validate_cert = False)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('.title > a').items():
            self.crawl(each.attr.href, callback=self.detail_page, validate_cert = False)

    @config(priority=2)
    def detail_page(self, response):
        yield {
            'title': response.doc('.main').text(),
            'special': response.doc('.tags > .content').text(),
            'price': response.doc('.price > .total').text(),
            'sell point': response.doc('.baseattribute > .content').text()
        }

結果：分別爬取了賣房的標題（title），特點（special），賣點（sell point）和價格（price），因為字典儲存，所以無序

Pyspider爬蟲簡單框架

pyspide 目錄 pyspider簡單介紹 pyspider的使用實戰 pyspider簡單介紹　　一個國人編寫的強大的網路爬蟲系統並帶有強大的WebUI。採用Python語言編寫，分散式架構，支援多種資料庫後端，強大的WebUI支援

pyspider爬蟲框架的安裝和使用

latest with ide inux 本地處理器 pytho 瀏覽器 uil pyspider是國人binux編寫的強大的網絡爬蟲框架，它帶有強大的WebUI、腳本編輯器、任務監控器、項目管理器以及結果處理器，同時支持多種數據庫後端、多種消息隊列，另外還支持JavaS

pyspider爬蟲框架之拉勾網招聘資訊爬取

需求遍歷所有職位目錄點選職位分類，進入之後按照地區抓取，職位名稱，釋出時間，薪酬，工作年限要求，學歷要求，招聘公司，所屬行業，所處輪次進入職位詳情頁，抓取HR聊天意願（用時），簡歷處理，活躍時段。程式碼程式碼有詳細的註解，就不一步一步講解了，

pyspider爬蟲框架之boss直聘招聘資訊爬取

需求需求： 1、遍歷首頁所有職位分類 2、點選進入職位分類詳情頁，按照地區抓取，職位名稱，月薪，經驗年限要求，學歷要求，招聘公司，所屬行業，輪次，人數（規模），釋出時間 3、點選進入職位詳情頁，抓取該職位的技能標籤。程式碼程式碼有註釋

Pyspider爬蟲框架的基本使用

1.pyspider介紹一個國人編寫的強大的網路爬蟲系統並帶有強大的WebUI。採用Python語言編寫，分散式架構，支援多種資料庫後端，強大的WebUI支援指令碼編輯器，任務監視器，專案管理器以及結果檢視器。用Python編寫指令碼功能強大的WebUI，包含指令

.net使用abot爬蟲簡單例子

ldoc edt pan cat style 指定 gles ted 應該 abot是.net爬蟲框架中的一種，Abot是一個開源的.net爬蟲，速度快，易於使用和擴展。項目的地址是https://code.google.com/p/abot/。爬取的html解析，我們使

爬蟲——Scrapy框架案例一：手機APP抓包

debug domain hone targe allow topic document more ebs 以爬取鬥魚直播上的信息為例： URL地址：http://capi.douyucdn.cn/api/v1/getVerticalRoom?limit=20&of

爬蟲——Scrapy框架案例二：陽光問政平臺

web url地址 blog rem idt xpath disable ora ole 陽光熱線問政平臺 URL地址：http://wz.sun0769.com/index.php/question/questionType?type=4&page= 爬取字段：帖

[Python]python爬蟲簡單試用

.com www pytho request rom open url 使用開始一直用的是python3.4版本，所以只用了urllib爬數據，然後使用BeautifulSoup做為分析。 1、首先安裝BeautifulSoup，執行命令如下： pip install

跟我學框架開發-簡單框架藍圖

img -1 報文格式數據監控統一封裝 idt 服務 png 以下是一個簡單早期的框架結構圖，到目前為上已經作了太多的調整與進化。但基本的構件與原理不變：個人覺得有以下幾點： 1、要有基礎框架建模平臺，這是構件化的實現基礎，也是本框架最重要的部分 2、全接口化交互，

requirejs vue vue router簡單框架

web vue requirejs vuerouter index.html 入口頁面<!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8"> <title

爬蟲簡單入門-接口尋找調用

sta for python import F12 調用 stat _for 新的重新開始學習python，初心不變，抓取馬刺隊比賽數據。網易NBA的比賽數據寫死在頁面當中，且數據單一，於是改為解析NBA中國的網頁。首先找到馬刺隊數據頁面（http://c

爬蟲scrapy框架安裝使用

目錄結構 spi 創建信息目錄結構 win 框架命令安裝： pip install scrapy 安裝可能會出現問題，此時需要下載一個依賴包在這個網站： https://www.lfd.uci.edu/~gohlke/pythonlibs/#t

java 自學簡單框架（反射+註解）

spa 最終 reflect lec 分享 image c99 inf png 1、先定義一個學生類 2、再定義一個teacher類（這個是為了練習多個註解，自己練習可以不寫這個） 3、再定義個一個學生老師類（這個是為了最終調用上面的那個學生類做準備） 4、下面開始

java 簡單框架的運用

網頁般的不可 .net 界面分布解決浪費 standards Struts Struts是一個基於Sun J2EE平臺的MVC框架，主要是采用Servlet和JSP技術來實現的。 Struts框架可分為以下四個主要部分，其中三個就和MVC模式緊密相關：　　1、模

爬蟲Scrapy框架-Crawlspider鏈接提取器與規則解析器

一個 htm turn 創建 for tin Coding lines spi 一：Crawlspider簡介　　　　CrawlSpider其實是Spider的一個子類，除了繼承到Spider的特性和功能外，還派生除了其自己獨有的更加強大的特性和功能。其中最顯著的功能就是

python 爬蟲 scrapy框架的使用一

1 首先安裝 scrapy ： pip install scrapy 2 用命令建立一個spider工程： scrapy startproject spider5 3 建立一個spider檔案，並指定爬蟲開始的域名： scrapy gensp

python 爬蟲 scrapy框架的使用一

pytho clas 工程本地 emp mpi 原理 png 下載 1 首先安裝 scrapy ： pip install scrapy 2 用命令創建一個spider工程： scrapy startproject spider5 3 創建一個s

Python 爬蟲簡單實現（爬取下載連結）

原文地址：https://www.jianshu.com/p/8fb5bc33c78e 專案地址：https://github.com/Kulbear/All-IT-eBooks-Spider 這幾日和朋友搜尋東西的

爬蟲Scrapy框架的setting.py檔案詳解

# -*- coding: utf-8 -*- # Scrapy settings for demo1 project # # For simplicity, this file contains only setting

Pyspider爬蟲簡單框架

相關推薦