筆記-scrapy-Selector

阿新 • • 發佈：2019-04-20

情況 ttr path 常用 xtra page radio input list

筆記-scrapy-Selector

1. Selector

scrapy自帶文本解析器，支持xpath,css等方法。

1.1. 基礎使用

調試時常需要從text中解析數據，使用方法如下：

from scrapy.selector import Selector

page_data = Selector(text=’’,type=’html/xml’)

一般不需要指定type參數。

1.2. 提取內容

Selector.xpath() 返回SelectorList對象

Selector.css() 返回SelectorList對象

SelectorList.extract() 返回List對象

SelectorList.extract_first(default) 返回String對象，可以有默認值，類似dict.get(key, default)

1.3. xpath選擇器語法

略

1.4. CCS選擇器語法

語法說明

* 選擇所有節點

#container 選擇id為container的節點

.container 選擇所有class包含container的節點

div,p 選擇所有 div 元素和所有 p 元素

li a 選取所有li 下所有a節點

ul + p 選取ul後面的第一個p元素

div#container > ul 選取id為container的div的第一個ul子元素

ul ~p 選取與ul相鄰的所有p元素

a[title] 選取所有有title屬性的a元素

a[href=”http://baidu.com”] 選取所有href屬性為http://baidu.com的a元素

a[href*=”baidu”] 選取所有href屬性值中包含baidu的a元素

a[href^=”http”] 選取所有href屬性值中以http開頭的a元素

a[href$=”.jpg”] 選取所有href屬性值中以.jpg結尾的a元素

input[type=radio]:checked 選擇選中的radio的元素

div:not(#container) 選取所有id為非container 的div屬性

li:nth-child(3) 選取第三個li元素

li:nth-child(2n) 選取第偶數個li元素

a::attr(href) 選取a標簽的href屬性

a::text 選取a標簽下的文本

1.5. 總結

xpath功能強大，比較常用

css不方便一些，在部分情況下比xpath好用

re效率最高，但使用最繁瑣。

筆記-scrapy-Selector

情況 ttr path 常用 xtra page radio input list 筆記-scrapy-Selector 1. Selector scrapy自帶文本解析器，支持xpath,css等方法。 1.1. 基礎使用調試時常需要

筆記-scrapy-Request/Response

merge server with 過濾器 att browser 蜘蛛形式 ogg 筆記-scrapy-Request/Response 1. 簡介 Scrapy使用Request和Response來爬取網站。 2. request class s

筆記-scrapy-深入學習-sheduler

筆記-scrapy-深入學習-sheduler 1. scheduler.py source code：scrapy/core/scheduler.py: 1.1. 初始化的開

筆記-scrapy-extentions

list custom href number urn sse hat mwc 類加載順序筆記-scrapy-extentions 1. extentions 1.1. 開始 The extensions framework provides a me

筆記-scrapy-signal

筆記-scrapy-signal 1. scrapy singal 1.1. 訊號機制 scrapy的訊號機制主要由三個模組完成 signals.py 定義訊號量 signalmanage

筆記-scrapy-scarpyd

行操作工具不同的 ima spi center 主機文檔訪問筆記-scrapy-scarpyd 1. scrapy部署會寫爬蟲之後就是部署、管理爬蟲了，下面講一下如何部署scrapy爬蟲。現在使用較多的管理工具是Scrapyd。 scrapyd是

筆記-scrapy-輔助功能

筆記-scrapy-輔助功能 1. scrapy爬蟲管理爬蟲主體寫完了，要部署執行，還有一些工程性問題；限頻爬取深度限制按條件停止，例如爬取次數，錯誤次數；資源使用限制，例如記憶體限制；狀態報告

python爬蟲學習筆記-scrapy框架之start_url

在使用命令列建立scrapy專案後，會發現在spider.py檔案內會生成這樣的程式碼： name = 'quotes' allowed_domains = ['quotes.toscrape.com'] start_urls = ['http://quotes.toscrape.com

筆記-scrapy-請求-下載-結果處理流程

筆記-scrapy-請求-下載-結果處理流程在使用時發現對scrpy的下載過程中的處理邏輯還是不太明晰，-寫個文件溫習一下。 1. 請求-下載-結果處理流程從哪開始呢？ engine.py @d

Scrapy selector介紹

從HTML原始檔庫中解析資料通常有以下常用的庫可以使用： BeautifulSoup是在程式設計師間非常流行的網頁分析庫，它基於HTML程式碼的結構來構造一個Python物件，對不良標記的處理也非常合理，但它有一個缺點：慢。 lxml是一個基於 Eleme

scrapy筆記

read city 接收 erer dir gin style cati page 1、關於請求url狀態碼重定向問題： from scrapy import Request handle_httpstatus_list = [404, 403, 500, 503, 521

scrapy爬取小說盜墓筆記

xtra pipeline odin trac items style ict ref open # -*- coding: utf-8 -*- import scrapy import requests from daomu.items import DaomuItem

scrapy學習筆記(1)

div nac 學習筆記 .com 改變 post scrapy win blog 初探scrapy，發現很多入門教程對應的網址都失效或者改變布局了，於是自己摸索做一個筆記。環境是win10 python3.6(anaconda)。安裝 pip install scr

Scrapy爬蟲學習筆記 - windows下搭建開發環境1

ima 搭建開發環境環境 navicat win pyc arm bsp mysql 一、pycharm的安裝和簡單使用二、mysql和navicat的安裝和使用三、wi

scrapy學習筆記

spa pro 爬取 scrapy 需要 Go type com line scrapy學習筆記下面以爬取1919網站為例子，完成對一整個網站數據爬取的scrapy項目創建。創建一個scrapy文件在任意目錄下輸入命令 scrapy startproject One

Python爬蟲【五】Scrapy分布式原理筆記

啟動 size inf p s 集合內存運行請求 max Scrapy單機架構在這裏scrapy的核心是scrapy引擎，它通過裏面的一個調度器來調度一個request的隊列，將request發給downloader，然後來執行request請求但是這些requ

python | 爬蟲筆記 - （八）Scrapy入門教程

RoCE yield ini 配置自己數據存儲 2.3 rom 提取數據一、簡介 Scrapy是一個基於Twisted 的異步處理框架，是針對爬蟲過程中的網站數據爬取、結構性數據提取而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。

二.Pyhon_scrapy終端（scrapy shell）學習筆記

等等 print ins ide 信息 unix xtra rec .net Scrapy shell Scrapy shell是一個交互式shell，您可以非常快速地嘗試調試您的抓取代碼，而無需運行蜘蛛。它用於測試數據提取代碼，但您實際上可以使用它來測試任何類型的代

Python-- scrapy-shell學習筆記

目錄 scrapy-shell 1.啟動 2.response 3.selector 4.練習（自己做的小練習，獲取招聘網站的資訊） scrapy-shell 官方文件：https://scrapy-chs.readthedocs.io/zh_

Python的學習筆記DAY7---關於爬蟲（2）之Scrapy初探

首先是安裝，python3+windows10 64位。安裝Scrapy，安裝，直接pip install Scrapy.....下載了半天報錯。。好像是沒有lxml這

筆記-scrapy-Selector

筆記-scrapy-Selector

1. Selector

1.1. 基礎使用

1.2. 提取內容

1.3. xpath選擇器語法

1.4. CCS選擇器語法

1.5. 總結

相關推薦