Scrapy安裝與應用抓取網站爬蟲

阿新 • • 發佈：2020-11-18

首先，下載Twisted。cp後數字為python版本,例如cp36為python3.6；amd則表示系統位數，例如amd64為64位。下載對應版本即可。點選開啟連結

在cmd中輸入pip install Twisted的路徑，例如下載路徑為F:\Twisted-17.9.0-cp36-cp36m-win_amd64.whl，則輸入pip install F:\ Twisted-17.9.0-cp36-cp36m-win_amd64.whl

1、新建爬蟲專案
1.1、切換到專案檔案下面
1.2、在Terminal使用srcapy startproject 爬蟲專案名稱。如：

scrapy startproject Python32000

1.3、在專案中spiders新建爬蟲區,scrapy genspider 爬蟲名稱爬蟲區域。如：scrapy genspider itcast itcast.cn

1.4、配置，先確定我們需要爬蟲爬的資料引數，在items.py下面配置你需要的引數。
items。

class Day2Item(scrapy.Item):
# define the fields for your item here like:
name = scrapy.Field()
title = scrapy.Field()
info = scrapy.Field()

到spiders檔案下面的itcast，實現具體爬蟲程式碼。
items。

import scrapy
from ..items import *
class ItcastSpider(scrapy.Spider):
name = 'itcast'
allowed_domains = ['itcast.cn']
start_urls = ['http://www.itcast.cn/channel/teacher.shtml']
def start_requests(self):
for url in self.start_urls:
yield scrapy.Request(url=url, callback=self.parse)
def parse(self, response):
items = []
for each in response.xpath("//div[@class='li_txt']"):
# 將我們得到的資料封裝到一個 `ItcastItem` 物件
item = Day2Item()
# extract()方法返回的都是unicode字串
name = each.xpath("h3/text()").extract()
title = each.xpath("h4/text()").extract()
info = each.xpath("p/text()").extract()
# xpath返回的是包含一個元素的列表
item['name'] = name[0]
item['title'] = title[0]
item['info'] = info[0]
items.append(item)
# 直接返回最後資料
return items

1.6、執行爬蟲scrapy crawl 爬蟲名稱。如：scrapy crawl itcast。

Scrapy安裝與應用抓取網站爬蟲

Scrapy安裝與應用抓取網站爬蟲

Wireshark安裝入門及抓取網站使用者名稱密碼

Scrapy爬蟲輕鬆抓取網站資料(以bbs為例,提供原始碼)

如何使用Python網路爬蟲抓取網站圖片

python通過連結抓取網站詳解

electron的安裝與應用

1、scrapy安裝與使用

Expect的安裝與應用，及實現自動檢測另外一臺伺服器執行狀態並重啟，和使用expect指令碼遠端批量管理伺服器與日誌分析

【RoborFramework】Autoitlibrary安裝與應用

C# 使用HtmlAgilityPack 抓取網站連結

MAVEN的安裝與應用

如何快速抓取網站SEO元素

網路爬蟲中Fiddler抓取PC端網頁資料包與手機端APP資料包

Python爬蟲抓取純靜態網站及其資源（基礎篇）

Python爬蟲抓取純靜態網站及其資源（開發篇）

Python爬蟲實戰，Scrapy實戰，抓取並分析天氣資料

爬蟲與Python：（四）爬蟲進階一之資料抓取——2.Python模擬Ajax

實踐Python爬蟲框架Scrapy來抓取豆瓣電影

用scrapy爬蟲抓取慕課網課程資料詳細步驟

IntelliJ IDEA 2019.2 x64的安裝、應用與簡單配置(圖文)

Scrapy安裝與應用抓取網站爬蟲

相關推薦