scrapy的安裝，scrapy建立專案

阿新 • • 發佈：2021-11-13

簡要：

scrapy的安裝

# 1）pip install scrapy-i https://pypi.douban.com/simple（國內源）

一步到位

# 2) 報錯1： building 'twisted.test.raiser' extension
　　# error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++
　　# Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
# 解決1
　　#http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
　　# Twisted‑20.3.0‑cp37‑cp37m‑win_amd64.whl
　　# cp是你的python版本
　　# amd是你的作業系統的版本

　　# 下載完成之後使用pip install twisted的路徑安裝

　　# 切記安裝完twisted 再次安裝scrapy

　　pip install scrapy-i https://pypi.douban.com/simple

# 3）報錯2：提示python -m pip install --upgrade pip
　　# 解決2 執行python -m pip install --upgrade pip

# 4）報錯3 win32的錯誤
　　# 解決3pip install pypiwin32

# 5）使用 anaconda

scrapy建立專案

　　cmd 到專案資料夾中

　　或者直接拖入

如果返回沒有許可權，使用管理員執行cmd

1.建立scrapy專案：　　終端輸入scrapy startproject專案名稱

scrapy startproject scrapy_baidu

scrapy_baidu\下的資料夾

2.專案組成：　　spiders 　　　　__init__.py 　　　　自定義的爬蟲檔案.py —>由我們自己建立，是實現爬蟲核心功能的檔案　　__init__.py 　　items.py —>定義資料結構的地方，是一個繼承自scrapy.Item的類　　middlewares.py —>中介軟體代理　　pipelines.py —>管道檔案，裡面只有一個類，用於處理下載資料的後續處理　　　　預設是300優先順序，值越小優先順序越高（1‐1000）　　settings.py —>配置檔案比如：是否遵守robots協議，User‐Agent定義等 3.建立爬蟲檔案：　　　　1）跳轉到spiders資料夾 cd 目錄名字/目錄名字/spiders 　　　　2）scrapy genspider 爬蟲名字網頁的域名　　爬蟲檔案的基本組成：　　　　繼承scrapy.Spider類　　　　　　name = 'baidu' —> 執行爬蟲檔案時使用的名字　　　　　　allowed_domains —> 爬蟲允許的域名，在爬取的時候，如果不是此域名之下的　　url，會被過濾掉　　　　　　start_urls —> 聲明瞭爬蟲的起始地址，可以寫多個url，一般是一個　　　　　　parse(self, response) —> 解析資料的回撥函式　　　　　　　　response.text —> 響應的是字串　　　　　　　　response.body —> 響應的是二進位制檔案　　　　　　　　response.xpath()—> xpath方法的返回值型別是selector列表　　　　　　　　extract() —> 提取的是selector物件的是data 　　　　　　　　extract_first() —> 提取的是selector列表中的第一個資料 4.執行爬蟲檔案：scrapy crawl baidu

　　scrapy crawl 爬蟲名稱　　注意：應在spiders資料夾內執行

settings.py

spiders\baidu.py

import scrapy

class BaiduSpider(scrapy.Spider):
    # 爬蟲的名字  用於執行爬蟲的時候 使用的值
    name = 'baidu'
    # 允許訪問的域名
    allowed_domains = ['http://www.baidu.com']
    # 起始的url地址  指的是第一次要訪問的域名
    # start_urls 是在allowed_domains的前面新增一個http://
    #             在 allowed_domains的後面新增一個/
    start_urls = ['http://www.baidu.com/']

    # 是執行了start_urls之後 執行的方法   方法中的response 就是返回的那個物件
    # 相當於 response = urllib.request.urlopen()
    #       response  = requests.get()
    def parse(self, response):
        print('你好世界')

scrapy的安裝，scrapy建立專案

Ionic Android打包 - 4.cordova ionic的安裝，ionic建立專案，android studio打包執行專案（測試包）

scrapy的安裝，scrapy建立專案

Django 入門篇1：安裝 Django 和建立專案

Scrapy安裝出現問題，Twisted安裝不上的問題 ERROR: Twisted-18.9.0-cp34-cp34m-win_amd64.whl is not a supported wheel

使用yarn安裝quasar，quasar建立新專案出錯error eslint

爬蟲部署，服務端安裝使用scrapyd，客戶端安裝scrapy-client，利用scrapy-client 釋出爬蟲到遠端服務端

Visual Studio 2019安裝、測試建立c語言專案(圖文教程)

vue安裝及建立專案的幾種方式

1、scrapy安裝與使用

Newbe.Claptrap 框架入門，第一步 —— 建立專案，實現簡易購物車

初學Vue.js，用 vue ui 建立專案會不會被鄙視

建立專案中，node_modules中有下載依賴項但package.json檔案中沒有依賴

Electron – 基礎學習(1): 環境安裝、建立專案及入門

2020最新 idea下載、安裝與建立專案測試的教程圖解

Vue筆記：安裝配置node.js及使用vue-cli建立專案

NO.124 專案經理建立專案，組建專案團隊。

【軟體安裝】Dev-c++安裝教程和使用教程，多檔案專案構建

【轉】 springBoot(2)---快速建立專案，初解jackson

node用express寫後端restful介面實戰二：用sequelize的操作資料庫，sequelize的安裝，建立資料庫

Scrapy安裝與應用抓取網站爬蟲

scrapy的安裝，scrapy建立專案

相關推薦