python scrapy 基本操作演示程式碼

阿新 • • 發佈：2018-11-08

# -*- coding: utf-8 -*-
import scrapy
# from quotetutorial.items import QuoteItem
from quotetutorial.items import QuotetutorialItem

# 主要編輯專案資訊基本上都在在這裡完成的

class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    allowed_domains = ['quotes.toscrape.com']
    start_urls = ['http://quotes.toscrape.com/']

    # 爬取資訊
    def parse(self, response):
        # pass
        # 列印原始碼
        # print(response.text)
        quotes = response.css('.col-md-8 .quote')
        for quote in quotes:
            item = QuotetutorialItem()
            text = quote.css('.text::text').extract_first()
            author = quote.css('.author::text').extract_first() # 只提取一個內容 類似於 findone
            tags = quote.css('.tags .tag::text').extract() # 提多多個內容 類似於 findall
            item['text'] = text
            item['author'] = author
            item['tags'] = tags
            yield item
        next = response.css('.pager .netxt a::attr(href)').extract_first() # 選擇下一頁
        url = response.urljoin(next) # 因為獲取的地址不完整，獲取完整的網址加內容連線地址
        yield scrapy.Request(url=url,callback=self.parse()) # 從新呼叫自己並翻頁
# 儲存檔案
# scrapy crawl quotes -o quotes.json
# scrapy crawl quotes -o quotes.jl
# scrapy crawl quotes -o quotes.csv
# scrapy crawl quotes -o quotes.xml
# scrapy crawl quotes -o ftp://user: 
[email protected]/path/quotes.csv

python scrapy 基本操作演示程式碼

# -*- coding: utf-8 -*- import scrapy # from quotetutorial.items import QuoteItem from quotetutorial.items import QuotetutorialItem # 主要編輯專案資訊基本上都在在這裡完成

Python 3 基本操作列舉

pre png 基本操作 cnblogs 9.png font ges nbsp 1.字符串 2，列表 3.random庫計算機產生的隨機數都是有一個種子開始的偽隨機序列，相同的隨機種子產生相同的偽隨機數序列。 >>> random.seed

Python SQLAlchemy基本操作和常用技巧

save 訪問環境 metadata error mysql-cli 是個這樣的 ces 轉自：https://www.jb51.net/article/49789.htm 首先說下，由於最新的 0.8 版還是開發版本，因此我使用的是 0.79 版，API 也許會有些不

python tkinter 基本操作與事件

this root 樣式 his ble 執行對象 bsp geometry 基本操作 import tkinter as tk # 引入tk 包 win=tk.Tk() # 引入窗口對象 win.title("

python的基本操作

年齡 pytho 訪問開始 ole 可變 type 10.8 基本操作 1、打印 python打印用print(),打印字符需要用“”，打印變量直接填寫變量例如：print(“holle word”) a = 123 print

python列表基本操作（一）

一個處理 move 長度指定排序 app 索引處理方法函數list 有些時候修改字符串不能像列表那樣，可以使用list來解決 list函數實際上是一個類，而不是函數。 somelist = list(‘hello‘) 字符串str1 = hello world，

Python-OpenCV —— 基本操作詳解

ext output bottom 水平邊框 bsd efault fps itl OpenCV是一個基於BSD許可（開源）發行的跨平臺計算機視覺庫，可以運行在Linux、Windows、MacOS操作系統上。它輕量級而且高效——由一系列 C 函數和少量C++類構成，同時

python numpy 基本操作

首先匯入import模組 import numpy as np 建立list和matrix vector = np.array([5, 10, 15, 20]) # list matrix = np.array([[5, 10, 15], [20, 25, 30], [35

python pandas 基本操作

pandas 是基於 Numpy 構建的含有更高階資料結構和工具的資料分析包類似於 Numpy 的核心是 ndarray，pandas 也是圍繞著 Series 和 DataFrame 兩個核心資料結構展開的。Series 和 DataFrame 分別對應於一維的序列和二維的表結構。

scrapy基本操作

建立專案 scrapy startproject ****（專案名）建立一個基礎爬蟲類 scrapy genspider ****（spiders名） "–---"（爬蟲作用範圍）例：scrapy genspider meiju meijutt.com scrapy genspider -t 模板名字

C++控制檯操作（基本操作的程式碼）

控制檯視窗介面程式設計控制〇、摘要一、概述二、控制檯文字視窗的一般控制步驟三、控制檯視窗操作四、文字屬性操作五、文字輸出六、文字操作示例七、滾動和移動八、游標操作九、讀取鍵盤資訊十、讀取滑鼠資訊十一、結語補充篇--經典程式

day11-python函式基本操作

1.函式 1.1定義函式是指將一組語句的集合通過一個名字或者說模組封裝起來，要想使用這個函式，只需要呼叫其函式名稱即可。 1.2 特點減少程式碼的重複性讓程式變得可擴充套件程式容易維護 1.3 語法 def function（）： # 函式關鍵字和函式名稱

Python檔案基本操作及上下文管理

檔案基本操作開啟檔案：f = open(fole_name,mode = 'r')，傳入表示檔案路徑的字串，會返回一個檔案物件，mode是檔案開啟模式。關閉檔案：f.close()，呼叫給定檔案物件的close方法。檔案開啟模式： r：以只讀方法開啟檔案，檔案指

vue的引入和基本操作（程式碼）

<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <ti

java平衡二叉樹的增加刪除等基本操作和程式碼實現

陣列為{1，2，3}型別的五種型別四種調整一、LL型： /** * 帶左子樹旋轉,適用於LL型 */ public static AvlNode rotateWithLeftChild(AvlNode n) { AvlNode k = n.left; n.left

【C++】如何進行簡單的檔案輸入、輸出？（基本操作及程式碼示例）（程式設計習慣）

使用cin進行輸入時，程式將輸入視為一系列的位元組，每個位元組都被解釋為字元編碼，輸入一開始都是字元資料。輸出檔案開啟 //第一種 ofstream outFile; outFile.open("my.txt"); //第二種 ofstream fout; char filename[5

python-list基本操作

list基本操作 1) list列表，陣列 stus = ['yangguo','小龍女','哈根達斯','琪琪']#下標，索引，角標：0,1,2,3 查詢名字叫“小龍女”的元素在第幾位,下標從0開始計算　　print(stus[1]) 空list 　　

python txt基本操作

如下表模式可做操作若檔案不存在是否覆蓋 r 只能讀報錯 - r+ 可讀可寫報錯是 w

docker 基礎命令操作映象以及容器的基本操作演示

tomcat啟動後’，可以通過頁面訪問到預設頁面，可以更加直觀的顯示出來；我們就以tomcat為例，對映象，容易的基礎操作進行演示； 1.查詢映象命令 docker search tomcat ，執行後，出現一個列表，表頭的相關資訊，看名字，可以很容易的理解，分別是

C++/STL_中vector基本操作測試程式碼，vector.erase()使用方法

通過vector我們可以減少類裡的變數，比如一個類裡儲存了一種資料，但是不知道這種資料到底要儲存個，我們常常使用(結構體陣列/物件陣列)，加一個變數來表示記錄的數量。但是通過vector可以簡化這個

python scrapy 基本操作演示程式碼

相關推薦