scrapy 入門案例

阿新 • • 發佈：2018-12-20

scrapy 爬蟲（糗事百科）第一步

準備工作
爬取以下內容
name age content
在H:盤建立爬蟲專案

# 建立爬蟲專案 （專案名qiu_bai）
scrapy startproject qiu_bai

第二步切換到spiders目錄下

# 生成爬蟲檔案
scrapy genspider qiubai www.qiushibaike.com

會在spider目錄生成一個 qiubai.py檔案

貼上以下程式碼

import scrapy
# 要爬取的欄位
class QiuBaiItem(scrapy.Item):
    name = scrapy.Field()
    age = scrapy.Field()
    content = scrapy.Field()

複製以下程式碼

# -*- coding: utf-8 -*-
import re
import scrapy
from qiu_bai.items import QiuBaiItem
class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    allowed_domains = ['www.qiushibaike.com']
    start_urls = ['https://www.qiushibaike.com/8hr/page/1/']

    def parse(self, response):
        for each in response.xpath('//div[@id="content-left"]/div'):
            item = QiuBaiItem()
            try:
                name = each.xpath('div/a[2]/h2/text()').extract_first().strip('\n')
            except Exception as e:
                name='匿名使用者'
            try:
                age = each.xpath('div[1]/div/text()').extract_first()
            except Exception as e:
                age = '沒有年齡'
            content = each.xpath('a[1]/div/span/text()').extract_first().strip('\n')
            for i in item.fields.keys():
                item[i] = eval(i)
            yield item
        s = response.url
        now_page = int(re.search(r'(\d+)/$', s).group(1))
        if now_page < 13:
            url = re.sub(r'(\d+)/$', str(now_page + 1), s)
            print("this is next page url:", url)
            print('*' * 100)
            yield scrapy.Request(url, callback=self.parse)

第五步開啟 pipelines.py (將爬取到的資料儲存成json檔案)

import json

class QiuBaiPipeline(object):
    def __init__(self):
        self.file = open('qiubai.json', 'wb')

    def process_item(self, item, spider):
        content = json.dumps(dict(item), ensure_ascii=False) + "\n"
        self.file.write(content.encode('utf8'))
        return item

    def close_spider(self, spider):
        self.file.close()

複製以下程式碼

BOT_NAME = 'qiu_bai'

SPIDER_MODULES = ['qiu_bai.spiders']
NEWSPIDER_MODULE = 'qiu_bai.spiders'

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'

ROBOTSTXT_OBEY = False

DOWNLOAD_DELAY = 3

ITEM_PIPELINES = {
   'qiu_bai.pipelines.QiuBaiPipeline': 300,
}

第七步

# 在終端輸入
scrapy crawl qiubai

在這裡插入圖片描述

輸入命令然後單擊回車開始爬取需要的資訊

scrapy 入門案例

scrapy 爬蟲（糗事百科）第一步準備工作爬取以下內容 name age content 在H:盤建立爬蟲專案 # 建立爬蟲專案（專案名qiu_bai） scrapy startproject qiu_bai 會自動生成

Scrapy 爬蟲框架入門案例詳解

tin mon setting 爬蟲框架 finished perror project 原因 create 歡迎大家關註騰訊雲技術社區-博客園官方主頁，我們將持續在博客園為大家推薦技術精品文章哦~ 作者：崔慶才 Scrapy入門本篇會通過介紹一

Python爬蟲Scrapy(二)_入門案例

efi with 進入中繼 reload tle 下載摘要 excel打開本章將從案例開始介紹python scrapy框架，更多內容請參考:python學習指南入門案例學習目標創建一個Scrapy項目定義提取的結構化數據(Item) 編寫爬取網站的S

JavaScript入門案例

tran ext ring ble .org lis rip xhtml date <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/

SpringMVC入門案例:HelloWorld

javax file tar view 過程 name res location page 本文摘自:http://www.cnblogs.com/bigdataZJ/p/springmvc1.html 軟件參數　　Eclipse：Mars.1 Release (

爬蟲——Scrapy框架案例一：手機APP抓包

debug domain hone targe allow topic document more ebs 以爬取鬥魚直播上的信息為例： URL地址：http://capi.douyucdn.cn/api/v1/getVerticalRoom?limit=20&of

爬蟲——Scrapy框架案例二：陽光問政平臺

web url地址 blog rem idt xpath disable ora ole 陽光熱線問政平臺 URL地址：http://wz.sun0769.com/index.php/question/questionType?type=4&page= 爬取字段：帖

quarz入門案例

應用創建 bstr -o 開發者 exception java應用 throws 執行介紹 Quartz框架是一個全功能、開源的任務調度服務，可以集成幾乎任何的java應用程序—從小的單片機系統到大型的電子商務系統。Quartz可以執行上千上萬的任務調度。

MyBatis學習（一）簡介及入門案例

結果集提交 ace 支持 nag 實例 exce 空間 cti 1.什麽是MyBatis？　　MyBatis是一個支持普通SQL查詢，存儲過程，和高級映射的優秀持久層框架。MyBatis去掉了幾乎所有的JDBC代碼和參數的手工設置以及對結果集的檢索封裝。MyBatis可

k8s入門案例

ice con art get install cas replicat yum 火墻 1、關閉CentOS自帶的防火墻服務： systemctl disable firewalld systemctl stop firewalld 2、安裝etcd和K

scrapy入門到精通

scrapyScrapyhttps://github.com/scrapy/scrapyhttps://github.com/marchtea/scrapy_doc_chs/blob/0.24/intro/tutorial.rsthttp://scrapy-chs.readthedocs.io/zh_CN/0

Mybatis 入門案例分享

java mybatis 本文分享一下，Mybatis的一些入門案例；為什麽不用JDBC方式來操作數據庫，而使用類似於Mybatis的框架呢？1、數據庫鏈接創建、釋放頻繁造成系統資源浪費從而影響系統性能，如果使用數據庫鏈接池可解決此問題。解決：在SqlMapConfig.xml中配置數據鏈接池，使

golang入門案例之SOCKET

int div 進行 lec ont func 轉換 exit oca //服務端代碼package main import ( "fmt" "net" "log" "os" "encoding/binary" ) func main() { //建立s

Elasticsearch快速入門案例

nod esp 每次行高 dice climb 添加 last 我們寫在前面的話：讀書破萬卷，編碼如有神-------------------------------------------------------------------- 參考內容：　　《Elast

redis主從復制入門案例

服務器過程擁有新的 redis 成功指定復制 center 主從復制特點： 1.master可以擁有多個slave 2.多個slave可以連接同一個master外，還可以連接到其他slave 3.主從復制不會阻塞master,在同步數據時，master可以繼續處

Struts2入門案例

pattern 入門 tsp ack namespace text demo 自動 org 本文用的是Intellij IDEA開發工具，struts2版本是struts-2.3.24，官網最新的是2.5，和2.3有些區別。官網下載地址：https://struts.ap

CMake系列之二：入門案例-單個源文件

bubuko 源文件註釋 http 編寫 AD 源碼 power 比較編寫一個源碼文件如下 1 #include<stdio.h> 2 #include<stdlib.h> 3 4 double power(double

Mybatis入門案例之增刪改查

取值 private wid resources property 文件 3.0 AS 普通 MyBatis:是一個支持普通sql查詢和存儲過程以及高級映射的優秀持久層框架,其主要思想是將代碼中大量的SQL語句剝離出來,配置到配置文件中,以實現SQL的靈活配置. mybat

微信小程序入門案例

傳遞 [] 數據 ble 單位目標 href 完成 bar 本文通過具體的實例記錄微信小程序的入門知識。可以直接進我的個人博客查看：http://webhmy.com/2018/07/05/wechat/ 1、特點不需要安裝依賴微信應用更接近原生APP 豐富的框架

python之路 -- 爬蟲 -- Scrapy入門

.py python模塊 spi 以及技術 16px 安裝爬蟲應用 Scrapy 　　Scrapy　是一個為了爬取網站數據，提取結構性數據而編寫的應用框架。其可以應用在數據挖掘，信息處理或存儲歷史數據等一系列的程序中。其最初是為了頁面抓取 (更確切來說, 網絡抓取

scrapy 入門案例

scrapy 爬蟲（糗事百科）第一步

第二步 切換到spiders目錄下

第五步 開啟 pipelines.py (將爬取到的資料儲存成json檔案)

第七步

相關推薦

第二步切換到spiders目錄下

第五步開啟 pipelines.py (將爬取到的資料儲存成json檔案)