02.Scrapy-Demo

阿新 • • 發佈：2020-06-24

Scrapy入門實戰

採集目標：採集西祠網的IP代理包括 IP PORT

1. 新建專案

scrapy startproject xicidailiSpider

# scrapy 新建專案  專案名

2. 建立爬蟲

scrapy genspider xicidaili xicidaili.com

# scrapy 產生爬蟲  爬蟲名字   網站域名

# 注意：爬蟲名字一定不能與專案名字一致！

可以看到，在專案的spiders下得到了一個爬蟲檔案

解釋爬蟲檔案

import scrapy # 匯入scrapy

# 建立爬蟲類 並且繼承自scrapy.Spider --> 爬蟲最基礎的類
 

# 另外幾個類都是繼承自這個類

class XicidailiSpider(scrapy.Spider):

    #爬蟲名字 --> 必須唯一

    name = 'xicidaili'

    # 允許採集的域名

    allowed_domains = ['xicidaili.com']

    # 開始採集的網站

    start_urls = ['http://xicidaili.com/']

	# 解析響應資料 提取資料 或者網址等 response就是網頁原始碼

    def parse(self, response):

        pass

3. 分析網址

提取資料

正則表示式（基礎必回難掌握）
XPath --> 從HTML中國提取資料語法
CSS --> 從HTML中國提取資料語法

response.xpath("xpath語法").get()

get() 是得到一個元素

getall() 是多個元素

class XicidailiSpider(scrapy.Spider):

    name = 'xicidaili'

    allowed_domains = ['xicidaili.com']

    start_urls = ['https://www.xicidaili.com/nn/']

    # start_urls = [f'https://www.xicidaili.com/nn/{page}' for page in range(1,3685)]

    def parse(self, response):
 

        # 提取資料

        # response.xpath("//tr/td[2]/text()")

        selectors = response.xpath("//tr")

        for selector in selectors:

            ip = selector.xpath("./td[2]/text()").get() # . 在當前節點下繼續選擇

            port = selector.xpath("./td[3]/text()").get()

            # ip = selector.xpath("./td[2]/text()").extract_first()  # 與get等價

            # port = selector.xpath("./td[3]/text()").extract_first()

            print(ip,port)

4. 執行爬蟲

scrapy crawl 爬蟲名字

		# 翻頁操作

        next_page = response.xpath('//a[@class="next_page"]/@href').get()

        if next_page:

            print(next_page)

            # 拼接網址

            next_url = response.urljoin(next_page)

            yield scrapy.Request(next_url,callback=self.parse) # yield 生成器

# Request() 傳送請求 類似requests.get()

# callback 是回撥函式 將發出去的請求得到的響應還交給自己(self.parse)處理

# 注意：回撥函式不要寫() 只寫方法名字

02.Scrapy-Demo

Scrapy入門實戰採集目標：採集西祠網的IP代理包括 IP PORT 1. 新建專案 scrapy startproject xicidailiSpider

scrapy和scrapy-redis 詳解一入門demo及內容解析

架構及簡介 Scrapy是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。

scrapy入門到放棄02：整一張架構圖，開發一個程式

這個圖畫的我覺得不錯前言 Scrapy開門篇寫了一些純理論知識，這第二篇就要直奔主題了。先來講講Scrapy的架構，並從零開始開發一個Scrapy爬蟲程式。

遷徙圖Demo，echarts+json實現地圖資料軌跡（根據value設定軌跡顏色02）

<!DOCTYPE html> <html> <head> <title>openlayers6結合echarts4實現遷徙圖</title>

SignalR系列文章02---netCoreMvc建立Demo

1、新建.net core MVC專案，並引入nuget包 2、新增客戶端庫 3、修改startUp.cs檔案，增加services.AddSignalR();和endpoints.MapHub<ServerHub>(\"/serverHub\");

Java 基礎demo 02

java 特性：簡單性面向物件可移植性高效能分散式動態性多執行緒（邊看qq，邊聽音樂）

Spring整合RabbitMQ-02-RabbitTemplate

RabbitTemplate，訊息模板傳送訊息的關鍵類，該類提供了豐富的傳送訊息的方法，包括可靠性投遞的方法，回撥監聽訊息介面ConfirmCallback,返回值確認介面ReturnCallback等。同樣我們需要進行注入到Spring容器中，然後

爬蟲實戰之Scrapy模擬登陸

想爬取網站資料？先登入網站！對於大多數大型網站來說，想要爬取他們的資料，第一道門檻就是登入網站。下面請跟隨我的步伐來學習如何模擬登陸網站。

第一節：實現Activiti6.0的第一個demo

一、搭建專案架構使用idea需要安裝actiBPM外掛用來畫流程圖建立一個空的java專案，並新增資料夾如下：

Spring boot+Mysql+Spring data JPA一個Web的Demo

1.概述因為要用spring boot,最近剛剛學習.這是一個web專案的配合mysq+Hibernate+tomcat的簡單示例demo,很容易在此基礎上擴充套件成自己的專案.

iOS基於WebRTC的音視訊直播實用Demo(2020最新)

之前寫了一篇文章關於WebRTC的詳細實用文章 iOS 基於WebRTC的音視訊通訊總結篇,收到很多網路好友的回覆和詢問,現在附上一個實用性的demo,幫助大家更好的理解.

Go小課02：第一次Say Hello

一、Say Hello請求 1、環境配置安裝Go的包依賴管理命令列工具govendor go get -u github.com/kardianos/govendor

Go小課03：Gin Simple Demo解讀

一、概述 1、簡介 Go官方為了支援Web開發，提供了net/http工具包；但是在實際專案中，團隊還是會選擇更加高效，更便捷的Web框架，如Gin、Echo,Beego等；

springboot系列之02-需要了解的巨集觀知識點

未經允許，不得轉載原作者：字母哥部落格本文完整系列出自：springboot深入淺出系列

國慶期間技術精進02：kibana入門

昨天接觸到kibana技術，同事給我講述了怎麼用?利用假期時間瞭解和學習以下kibana技術。

999 - Elasticsearch Analysis 02 - Analyzer

Standard Analyzer 預設的analyzer，適合大多數語言。根據Unicode Text Segmentation演演算法的定義，將文字切分成詞元。

Spring Boot WebFlux 增刪改查完整實戰 demo

03：WebFlux Web CRUD 實踐前言上一篇基於功能性端點去建立一個簡單服務，實現了 Hello 。這一篇用 Spring Boot WebFlux 的註解控制層技術建立一個 CRUD WebFlux 應用，讓開發更方便。這裡我們不對資料庫儲存進行

.NET進階篇02-Delegate委託、Event事件

知識只有經過整理才能形成技能一、概述先說下委託，委託我們也經常用到。詳盡瞭解委託是必要的，不然在非同步多執行緒的程式設計中會一頭霧水。委託本質就是一個類，和我們平常定義的類沒多大區別。只是這個類的作

SpringBoot+輪詢or長連線實現掃碼登入功能Demo—Postman模擬掃碼請求

掃碼登入功能Demo—Postman模擬掃碼請求掃碼登入功能—輪詢or長連線WebSocket—Zxing生成二維碼

JVM—【02】認識JVM的垃圾回收演演算法與收集器

1. 物件存活判斷 1.1. 引用計數演演算法 Reference Counting 給物件新增一個引用計數器，每當有一個地方引用它的時候，計數器值就加一；當引用失效時，計數器值就減一；任何時刻計數器為0的物件就是不可能再被使用的

02.Scrapy-Demo

Scrapy入門實戰

1. 新建專案

2. 建立爬蟲

3. 分析網址

4. 執行爬蟲

相關推薦