二.Pyhon_scrapy終端（scrapy shell）學習筆記

阿新 • • 發佈：2018-10-15

等等 print ins ide 信息 unix xtra rec .net

Scrapy shell

Scrapy shell是一個交互式shell，您可以非常快速地嘗試調試您的抓取代碼，而無需運行蜘蛛。它用於測試數據提取代碼，但您實際上可以使用它來測試任何類型的代碼，因為它也是常規的Python shell。

配置

官方原文：如果安裝了IPython，Scrapy shell將使用它（而不是標準的Python控制臺）。該IPython的控制臺功能更強大，並提供智能自動完成和彩色輸出，等等。

我們強烈建議您安裝IPython，特別是如果您正在使用Unix系統（IPython擅長）。有關詳細信息，請參閱IPython安裝指南。

Scrapy也支持bpython，並且會嘗試在IPython 不可用的地方使用它。

調用的話，可以進入你文件中的scrapy.cfg中設置，添加，例如ipython：

可以在筆記一的E:\pythoncode中設置：

[settings]
shell = ipython

啟動

進入命令行
scrapy shell <url>

scrapy也可以抓取本地文件：

scrapy shell X:///XXX/XXX/XXX/XXX.html

使用

Scrapy shell只是一個常規的Python控制臺（如果有的話，它可以是IPython控制臺），它提供了一些額外的快捷功能以方便使用。

Available Shortcuts（可用的命令？）

shelp()

fetch(url[, redirect=True])

fetch(request)

view(response)

可用的Scrapy對象

Scrapy shell自動從下載的頁面創建一些方便的對象，如Response對象和 Selector對象

crawler- 當前Crawler對象。
spider- 已知處理URL的Spider，或者Spider當前URL沒有找到蜘蛛時的對象
request- Request最後一個獲取頁面的對象。您可以replace() 使用fetch 快捷方式使用或獲取新請求（不離開shell）來修改此請求。

response- Response包含最後一個提取頁面的對象
settings- 目前的Scrapy設置

shell會話的例子

首先，進入E:\pythoncode，然後啟動shell：

scrapy shell "https://www.baidu.com" --nolog

可以看到使用的一些命令：

[s] Available Scrapy objects:
[s] scrapy scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s] crawler <scrapy.crawler.Crawler object at 0x0000000000B27390>
[s] item {}
[s] request <GET https://www.baidu.com>
[s] settings <scrapy.settings.Settings object at 0x0000000004BA03C8>
[s] Useful shortcuts:
[s] fetch(url[, redirect=True]) Fetch URL and update local objects (by default
, redirects are followed)
[s] fetch(req) Fetch a scrapy.Request and update local object
s
[s] shelp() Shell help (print this help)
[s] view(response) View response in a browser

接著我們輸入：
 response.css("div.celltop a b::text").extract_first()
 ‘Information‘

fetch("http://www.guoxuedashi.com/")
註:記得url要加前綴（http://或者https://）
註：如果前面scrapy shell的時候沒有加--nolog,會顯示
註：DEBUG: Crawled (200)XXXXXXXXXXXXXXXXXX

response.css("a[target=_blank]::text").extract_first()
‘四庫全書‘

request = request.replace(method="POST")

fetch(request)

註："POST","GET","PUT","HEAD"等等都是HTTP請求方法(一般是用GET，這裏用POST是想舉個例子）

response.status
200

註：200是網頁響應代碼

from pprint import pprint

pprint(response.headers)

註:ppint是美觀的print

從爬蟲中調用shell

有時您想要檢查蜘蛛的某個特定點正在處理的響應，如果只是為了檢查您期望的響應是否到達那裏。

這可以通過使用該scrapy.shell.inspect_response功能來實現。

在E:\pythoncode\myproject\spiders創建

import scrapy


class MySpider(scrapy.Spider):
    name = "scrapy_sh"
    start_urls = [
        "http://example.com",
        "http://example.org",
        "http://example.net",
    ]

    def parse(self, response):        
        if ".org" in response.url:
            from scrapy.shell import inspect_response
            inspect_response(response, self)

註：shell就出來了~
response.url
‘http://example.org‘

response.css("p::text").extract()
["This domain is established to be used for illustrative examples in doc..........."]

view(response)
True

註:Ctrl+Z或者Ctrl+D可以退出

附上源頭活水：https://docs.scrapy.org/en/latest/topics/shell.html

二.Pyhon_scrapy終端（scrapy shell）學習筆記

等等 print ins ide 信息 unix xtra rec .net Scrapy shell Scrapy shell是一個交互式shell，您可以非常快速地嘗試調試您的抓取代碼，而無需運行蜘蛛。它用於測試數據提取代碼，但您實際上可以使用它來測試任何類型的代

機器學習（西瓜書）學習筆記（二）---------線性模型

1、基本形式對含有d個特徵的資料x，線性模型試圖學得一個通過特徵的線性組合來進行預測的函式：

模式識別（Pattern Recognition）學習筆記（二十七）-- 基於樹搜尋演算法的快速近鄰法

近鄰法中計算距離需要遍歷，帶來很大的計算量和儲存量，為了改善這兩方面的效能，有人提出採用分枝界定演算法（Branch-Bound Algorithm）來改進近鄰法，主要分為兩個階段：1）利用人工劃分或K-means聚類演算法或其他動態聚類演算法將樣本集X劃分

Android程式設計權威指南（第二版）學習筆記（二十五）—— 第25章搜尋

本章主要講了 ToolBar 中的 SearchView 的使用以及 SharedPreferences 的簡單使用。 GitHub 地址：完成第25章 1. SearchView SearchView 是一個 ActionVi

模式識別（Pattern Recognition）學習筆記（二十）--BP演算法

1.引言在無法像線性感知器一樣利用梯度下降學習引數這一問題阻礙了MLP長達25年後的一天，有人給出了一種有效的求解這些引數的方法，就是大名鼎鼎的反向傳播演算法（Back Propagation），簡稱為我們熟知的BP演算法（特別注意，BP演算法是一種演算法，

模式識別（Pattern Recognition）學習筆記（十二）--SVM（廣義）：大間隔

在學習之前，先說一些題外話，由於博主學習模式識別沒多久，所以可能對許多問題還沒有深入的認識和正確的理解，如有不妥，還望海涵，另請各路前輩不吝賜教。好啦，我們開始學習吧。

.NET 雲原生架構師訓練營（模組二基礎鞏固 MongoDB API重構）--學習筆記

# 2.5.8 MongoDB -- API重構 - Lighter.Domain - Lighter.Application.Contract - Lighter.Application - LighterApi - Lighter.Application.Tests ## Lighter.Domain

.NET 雲原生架構師訓練營（模組二基礎鞏固 RabbitMQ Masstransit 介紹）--學習筆記

# 2.6.6 RabbitMQ -- Masstransit 介紹 - Masstransit 是什麼 - Quickstart - 訊息 Message ## Masstransit 是什麼 Masstransit 是一個 .NET 免費開源的分散式應用框架 - 整合多種訊息中介軟體（Rabbit

數據通信基礎（物理層）學習筆記

-m 進制 app func 物理方便控制 ews 失真傳輸數據系統系統組成收發器： ? 連接發送端的收發器實現將數據轉換成信號的過程 ? 連接接收端的收發器實現將信號還原成數據的過程信道：信號傳播通道

o'Reill的SVG精髓（第二版）學習筆記——第四章

使用還需要第四章會有屬性輪廓 4.4 www. 進行第四章：基本形狀 4.1線段 SVG可以使用<line>元素畫出一條直線段。使用時只需要指定線段起止點的x和y坐標即可。指定坐標時可以不帶單位，此時會使用用戶坐標，也可以帶上單位，如em、in等。

操作主機介紹（升級版）---學習筆記

操作主機介紹在Window NT 4.0的域環境下，域控制器分為兩類PDC和BDC只有PDC能修改數據庫的內容，而BDC只有讀取數據庫的內容，這種結構被稱作單主復制。自從Windows2000 Server後所有的域控制器都可以自主的修改AD數據庫的內容，這種結構被稱為多主復制。但是某些歌呢更改不適合使用多

spring (4.0.2)——（尚矽谷）學習筆記1

aspect 什麽企業應用周期持久層非侵入 mvc 註入 JD 1、Spring是什麽？　　①Spring 是一個開源框架；　　②Spring 為簡化企業級應用開發而生。使用Spring可以使簡單的JavaBean實現以前只有EJB才能實現的功能。　　③Spr

數據結構（java版）學習筆記（序章）

簡單 size com bsp 一個隊列我們程序 http 程序=數據結構+算法序章做一個簡單的思維導圖，方便理解數據結構這門課的大綱，接下來我們將是按照線性表，棧，隊列，串，樹和圖的順序依次往下學。數據結構（java版）學習筆記（序章）

Apache Shiro安全（許可權框架）學習筆記

簡介： Apache Shiro 是 Java 的一個安全（許可權）框架。• Shiro 可以非常容易的開發出足夠好的應用，其不僅可以用在JavaSE 環境，也可以用在 JavaEE 環境。• Shiro 可以完成：認證、授權、加密、會話管理、與Web 整合、快取等。• 下載：http://shiro.ap