1、scrapy模組的簡單使用

阿新 • • 發佈：2020-12-10

技術標籤：python的scrapy爬蟲 python

scrapy模組

目錄

scrapy模組
- - - 安裝scrapy
    - 建立一個專案

安裝scrapy

# 如果安裝了conda 直接使用
conda install scrapy
# 使用pip 安裝
pip install scrapy
# 安裝出錯
# 如果是Twisted安裝出錯，進入官網
https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
# 找到Twisted安裝包，下載下來之後使用 pip 安裝

建立一個專案

開啟一個cmd，進入安裝scrapy的環境

建立一個專案，例如爬取 https://www.bqkan.com/3_3012/ 筆趣看的小說【武動乾坤】

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片儲存下來直接上傳(img-V9rqIEim-1607504635236)(https://i.loli.net/2020/12/06/S4swDTGdjA5nLqP.png)]

建立一個爬蟲

使用程式碼編輯器開啟專案(例如pycharm) 目錄結構如下

在這裡插入圖片描述

新建立啟動檔案

from scrapy import cmdline
cmdline.execute("scrapy crawl wu".split())

修改wu.py檔案

import scrapy
from wudong.items import WudongItem

class WuSpider(scrapy.Spider):
    name = 'wu'
    allowed_domains = ['www.bqkan.com']
    start_urls = ['https://www.bqkan.com/3_3012/1331001.html' 
]

    def parse(self, response):
        contents = response.css('div#content::text').getall()
        contents = [x.strip() for x in contents if x.strip() != '']
        contents.pop()
        contents.pop()  # 去除結尾多餘的字元
        contents = "\n\t".join(contents).replace('[筆趣看\xa0\xa0www.biqukan.com]百度搜索“筆趣看小說網”手機閱讀：m.biqukan.com' 
, '')

        title = response.css('h1::text').get()  # 章節名

        yield WudongItem(title=title, contents=contents)

        next_url = response.xpath('//a[contains(text(), "下一章")]/@href').get()

        if next_url:
            next_url = response.urljoin(next_url)
            yield scrapy.Request(url=next_url, callback=self.parse)

修改items.py檔案

import scrapy
class WudongItem(scrapy.Item):
    title = scrapy.Field()
    contents = scrapy.Field()

修改pipelines.py檔案

class WudongPipeline:
    def __init__(self):
        # 儲存為txt檔案
        self.f = open('武動乾坤.txt', 'w', encoding='utf-8')
    def process_item(self, item, spider):
        title = item['title']
        contents = item['contents']
        content = f'{title}\n\t{contents}'
        print(content, file=self.f, flush=True)  # 即使寫入
        # self.f.write(content)
        return item
    def close_spider(self, spider):
        self.f.close()

執行 startwudong.py 檔案

正常會輸出如下結果
在這裡插入圖片描述
同時建立一個文字檔案

一個簡單的scrapy爬蟲結束

1、scrapy模組的簡單使用

技術標籤：python的scrapy爬蟲python scrapy模組目錄 scrapy模組安裝scrapy建立一個專案

1、scrapy安裝與使用

scrapy是python的一個爬蟲框架，從網上隨意搜尋便能得到千篇一律的使用demo（本文也是喲），並且非常容易理解。即便你沒看過相關的demo，也一樣可以食用本文。我的應用場景大多是列表頁，文章頁等。如果你的業務需要

31.1、幾何定位---簡單介紹

幾何定位工具又叫做幾何匹配，給予物體形狀、邊緣、輪廓燈幾何資訊進行定位。

vuex簡單梳理1、state及輔助函式mapState

vuex可以理解為是一個vue提供的公共倉庫，裡面儲存裡多個元件都會用到的資料、方法等。

1、springboot簡單介紹

版本介紹通過官網網址：https://spring.io/projects/spring-boot 檢視版本，如下版本名稱

Requests模組之-1、傳送get請求

技術標籤：python介面自動化python Requests是Python HTTP 庫。我認為，它是最優秀的第三方的HTTP庫，使用範圍廣，可以用於介面測試、爬蟲、web後臺服務呼叫外部服務等。

1、unittest簡介、簡單運用

1、unittest簡介 python內部自帶一個單元測試的模組，unittest。適用於單元測試、介面自動化、web自動化、移動端自動化。

Scrapy爬取網易雲音樂和評論（二、Scrapy框架每個模組的作用）

教程系列連結目錄： 1、Scrapy爬取網易雲音樂和評論（一、思路分析） 2、Scrapy爬取網易雲音樂和評論（二、Scrapy框架每個模組的作用）

3、springboot連線資料庫 1、springboot工程新建（單模組）

本文意在使用最簡單的方式讓專案連線資料庫，後續還會將一些總結的經驗逐步發出來供大家參考

4、SpringBoot連線資料庫引入druid 1、springboot工程新建（單模組）

以前以為druid是用來連線資料庫的，其實這樣理解不太對，連線資料庫還是驅動，druid起到一個連線池的作用，監控管理連線資料庫的狀態之類的。

30.1、Blob---簡單介紹

1、Blob使用場合 Blob分析目的在於對影象中的2-D形狀進行檢測和分析，得到諸如目標位置、形狀、方向（外接仿射矩形或外接橢圓的主軸方向）。根據這些資訊可對目標進行識別。以下場合時適合使用Blob分析的：

Redis的概述、搭建及簡單使用（基於CentOS 6.5 Linux）

1、Redis 簡介 Redis 是完全開源免費的，遵守BSD協議，是一個高效能的key-value資料庫。

【重溫mysql】1、連線池

在我們日常的開發中，會經常與資料庫打交道。對於 java 開發者來說，經常會使用jdbc來與資料庫進行互動。我們可能會看到這樣的程式碼：

IntelliJ IDEA 2019.2 x64的安裝、應用與簡單配置(圖文)

一、Intellij IDEA的簡介 Intellij IDEA是java語言的整合開發環境，與Eclipse相比，它的功能更多、更強大、更智慧，Eclipse更適合剛學習java語言的初學者，它操作起來更簡單，而且大多數的入門教程都是使用Eclipse進

python之pymysql模組簡單應用示例程式碼

眾所周知，想要在python程式中執行SQL語句需要使用第三方模組：pymysql。下面，我將為大家簡述一下pymysql第三方庫的安裝到使用的大體流程。

Python中的X[:,0]、X[:,1]、X[:,:,0]、X[:,:,1]、X[:,m:n]和X[:,:,m:n]

Python中對於陣列和列表進行切片操作是很頻繁的，當然對於切片的操作可供我們直接使用的函式也是很遍歷了，我們今天主要簡單總結一下常用集中索引化方式，希望對大家有所幫助吧。

python deque模組簡單使用程式碼例項

最近在pythonTip做題的時候，遇到了deque模組，以前對其不太瞭解，現在特此總結一下

Qt串列埠通訊開發之QSerialPort模組簡單使用方法與例項

我這裡主要是對串列埠類的簡單使用，實現的功能是以讀寫方式開啟串列埠，點擊發送資料按鈕將傳送區的資料傳送到緩衝區，然後在接收區顯示出來，介面如下：（原始碼可以在這裡下載）

VS Code WebApi系列——1、配置

Knowledge should be Shared in Free. 最近在研究VS code下的webapi，看了很多文件，還是微軟官方的例子好，不過不太適應國人習慣，所以寫點東西。

1、Python 資料分析-NumPy科學計算

1、簡介： 1.1、什麼是資料分析把隱藏在一些看似雜亂無章的資料背後的資訊提煉出來，總結出所研究物件的內在規律，它在生活中處處都能遇到，形影不離。