爬蟲——scrapy入門

阿新 • • 發佈：2018-09-29

參數傳遞定義 unicode ace line 目錄創建項目列表 spl

scrapy

安裝scrapy

pip install scrapy

windows可能安裝失敗，需要先安裝c++庫或twisted，pip install twisted

創建項目

scrapy startproject tutorial

該命令將會創建包含下列內容的 tutorial 目錄:

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__ 
.py
            ...

    scrapy.cfg: 項目的配置文件
    tutorial/: 該項目的python模塊。之後您將在此加入代碼。
    tutorial/items.py: 項目中的item文件.
    tutorial/pipelines.py: 項目中的pipelines文件.
    tutorial/settings.py: 項目的設置文件.
    tutorial/spiders/: 放置spider代碼的目錄.

編寫第一個爬蟲

為了創建一個Spider，您必須繼承 scrapy.Spider 類，定義以下三個屬性

scrapy genspider dmoz dmoz.com 終端命令可以直接完成這步操作

屬性
- name: 用於區別Spider。該名字必須是唯一的，您不可以為不同的Spider設定相同的名字
- start_urls: 包含了Spider在啟動時進行爬取的url列表。因此，第一個被獲取到的頁面將是其中之一。後續的URL則從初始的URL獲取到的數據中提取
- parse() 是spider的一個方法。被調用時，每個初始URL完成下載後生成的
- Response 對象將會作為唯一的參數傳遞給該函數。該方法負責解析返回的數據(response data)，提取數據(生成item)以及生成需要進一步處理的URL的 Request 對象

 1 import scrapy
 2 
 
 3 class DmozSpider(scrapy.Spider):
 4     name = "dmoz"
 5     allowed_domains = ["dmoz.org"]
 6     start_urls = [
 7         "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
 8         "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
 9     ]
10 
11     def parse(self, response):
12         filename = response.url.split("/")[-2]
13         with open(filename, ‘wb‘) as f:
14             f.write(response.body)

爬取

scrapy crawl dmoz

過程：Scrapy為Spider的 start_urls 屬性中的每個URL創建了 scrapy.Request 對象，並將 parse 方法作為回調函數(callback)賦值給了Request；Request對象經過調度，執行生成 scrapy.http.Response 對象並送回給spider parse() 方法。


    xpath(): 傳入xpath表達式，返回該表達式所對應的所有節點的selector list列表 。
    css(): 傳入CSS表達式，返回該表達式所對應的所有節點的selector list列表.
    extract(): 序列化該節點為unicode字符串並返回list。
    re(): 根據傳入的正則表達式對數據進行提取，返回unicode字符串list列表。

scrapy shell

scrapy shell "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/"

response
- response.body：包體
- response.headers：包頭
- response.xpath()：xpath選擇器
- response.css()：css選擇器

 1 import scrapy
 2 
 3 class DmozSpider(scrapy.Spider):
 4     name = "dmoz"
 5     allowed_domains = ["dmoz.org"]
 6     start_urls = [
 7         "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
 8         "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
 9     ]
10 
11     def parse(self, response):
12         for sel in response.xpath(‘//ul/li‘):
13             title = sel.xpath(‘a/text()‘).extract()
14             link = sel.xpath(‘a/@href‘).extract()
15             desc = sel.xpath(‘text()‘).extract()
16             print title, link, desc

請使用手機"掃一掃"x

爬蟲——scrapy入門

python之路 -- 爬蟲 -- Scrapy入門

.py python模塊 spi 以及技術 16px 安裝爬蟲應用 Scrapy 　　Scrapy　是一個為了爬取網站數據，提取結構性數據而編寫的應用框架。其可以應用在數據挖掘，信息處理或存儲歷史數據等一系列的程序中。其最初是為了頁面抓取 (更確切來說, 網絡抓取

爬蟲——scrapy入門

參數傳遞定義 unicode ace line 目錄創建項目列表 spl scrapy 安裝scrapy pip install scrapy windows可能安裝失敗，需要先安裝c++庫或twisted，pip install twisted 創建項

Python爬蟲Scrapy入門看這篇就夠了

一、初窺scrapy scrapy中文文件: http://scrapy-chs.readthedocs.io/zh_CN/latest/ Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資

Scrapy 爬蟲框架入門案例詳解

tin mon setting 爬蟲框架 finished perror project 原因 create 歡迎大家關註騰訊雲技術社區-博客園官方主頁，我們將持續在博客園為大家推薦技術精品文章哦~ 作者：崔慶才 Scrapy入門本篇會通過介紹一

Python爬蟲從入門到放棄（十一）之 Scrapy框架整體的一個了解

object 定義 roc encoding eth obi pipe pos 等等這裏是通過爬取伯樂在線的全部文章為例子，讓自己先對scrapy進行一個整理的理解該例子中的詳細代碼會放到我的github地址：https://github.com/pythonsite/

Python爬蟲從入門到放棄（十三）之 Scrapy框架的命令行詳解

directory xpath idf 成了 spider i386 名稱 4.2 不同的這篇文章主要是對的scrapy命令行使用的一個介紹創建爬蟲項目 scrapy startproject 項目名例子如下： localhost:spider zhaofan$ sc

Python爬蟲從入門到放棄（十八）之 Scrapy爬取所有知乎用戶信息(上)

user 說過 -c convert 方式 bsp 配置文件 https 爬蟲爬取的思路首先我們應該找到一個賬號，這個賬號被關註的人和關註的人都相對比較多的，就是下圖中金字塔頂端的人，然後通過爬取這個賬號的信息後，再爬取他關註的人和被關註的人的賬號信息，然後爬取被關註人

Python爬蟲Scrapy(二)_入門案例

efi with 進入中繼 reload tle 下載摘要 excel打開本章將從案例開始介紹python scrapy框架，更多內容請參考:python學習指南入門案例學習目標創建一個Scrapy項目定義提取的結構化數據(Item) 編寫爬取網站的S

爬蟲框架Scrapy入門——爬取acg12某頁面

ima 需要 random 代碼定義 ons tps 框架 resp 1.安裝1.1自行安裝python3環境1.2ide使用pycharm1.3安裝scrapy框架2.入門案例2.1新建項目工程2.2配置settings文件2.3新建爬蟲app新建app將start_u

python | 爬蟲筆記 - （八）Scrapy入門教程

RoCE yield ini 配置自己數據存儲 2.3 rom 提取數據一、簡介 Scrapy是一個基於Twisted 的異步處理框架，是針對爬蟲過程中的網站數據爬取、結構性數據提取而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。

Python爬蟲從入門到放棄之 Scrapy框架中Download Middleware用法

sta 頻繁 space raw 處理們的 img ear 法則這篇文章中寫了常用的下載中間件的用法和例子。Downloader Middleware處理的過程主要在調度器發送requests請求的時候以及網頁將response結果返回給spiders的時候，所以從

Python爬蟲從入門到成妖之3-----Scrapy框架的命令行詳解

參數成了 openssl 入門文件中 crawler 1.0 使用 lob 創建爬蟲項目 scrapy startproject 項目名例子如下： E:\crawler>scrapy startproject test1 New Scrapy pro

Python爬蟲從入門到成妖之7-----Scrapy框架中Download Middleware用法

例子 start col res urn 鉤子 exception 安裝打印這篇文章中寫了常用的下載中間件的用法和例子。Downloader Middleware處理的過程主要在調度器發送 requests請求的時候以及網頁將 response結果返回給 spiders

python之爬蟲的入門06------scrapy框架

1、安裝scrapy框架： pip install scrapy 2、scrapy原理圖： 3、介紹： Scrapy Engine引擎引擎負責控制資料流在系統中所有元件中流動，並在相應動作發生時觸發事件。排程器(Scheduler) 排程器從引擎接受request並將他

scrapy框架爬蟲爬取糗事百科之 Python爬蟲從入門到放棄第不知道多少天（1）

Scrapy框架安裝及使用 1. windows 10 下安裝 Scrapy 框架：　　前提：安裝了python-pip 　　1. windows下按住win+R 輸入cmd 　　2. 在cmd 下輸入　　　　　　pip install scrapy 　　　　　　pip inst

scrapy入門教程()部署爬蟲專案

scrapyd部署爬蟲專案 1、scrapyd介紹它就相當於是一個伺服器，用於將自己本地的爬蟲程式碼，打包上傳到伺服器上，讓這個爬蟲在伺服器上執行，可以實現對爬蟲的遠端管理(遠端啟動爬蟲，遠端關閉爬蟲，遠端檢視爬蟲的一些日誌等)。 2、scrapyd安裝

scrapy入門教程()Gerapy分散式爬蟲管理框架

一、介紹： Gerapy 是一款分散式爬蟲管理框架，支援 Python 3，基於 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js

Python爬蟲（入門+進階）學習筆記 2-6 Scrapy的Request和Response詳解

上節課我們學習了中介軟體，知道了怎麼通過中介軟體執行反反爬策略。本節課主要介紹Scrapy框架的request物件和response物件通常，Request物件在爬蟲程式中生成並傳遞到系統，直到它們到達下載程式，後者執行請求並返回一個Response物件，

Python3網路爬蟲：Scrapy入門實戰之爬取動態網頁圖片

Python版本： python3.+ 執行環境： Mac OS IDE： pycharm 一前言二 Scrapy相關方法介紹 1 搭建Scrapy專案 2 shell分析三網頁分析

Python3網路爬蟲：Scrapy入門之使用ImagesPipline下載圖片

Python版本： python3.+ 執行環境： Mac OS IDE： pycharm 一前言二初識ImagesPipline ImagesPipline的特性 ImagesPipline的工

爬蟲——scrapy入門

scrapy

相關推薦