scrapy爬取詩詞網

阿新 • • 發佈：2018-12-10

入門scrapy不久,嘗試著寫一段程式碼爬取詩詞網. spider如下:

class ShiciSpider(scrapy.Spider):
    name = 'shici'
    url = 'http://www.shicimingju.com/chaxun/zuozhe/44_'
    page = 1
    start_urls = [url + str(page) +'.html']

    def parse(self, response):
        #判斷是否是主頁
        judge = response.xpath('//head/title/text()').extract_first()
        if 
 judge == '辛棄疾的詩詞全集、詩集(816首全)_詩詞名句網':
            #說明是在主頁
            for each in response.xpath('//h3/a/@href').extract():
                html = 'http://www.shicimingju.com' + each
                yield scrapy.Request(html,callback=self.parse)
            self.page += 1
            yield scrapy.Request(self.url+str(self.page)+'.html' 
,callback=self.parse)
        else:#在次級頁面時
            item = MyspiderItem()
            item['name'] = response.xpath('//h1[@class="shici-title"]/text()').extract_first()
            item['info'] = response.xpath('string(//div[@class="shici-content"])').extract_first().strip()
            yield item

items如下

class MyspiderItem(scrapy.Item):
    name = scrapy.Field()
    info = scrapy.Field()

pipelines如下

import json

class MyspiderPipeline(object):
    #初始化方法
    def __init__(self):
        self.file = open('詩詞.json','w')

    #對返回進行的處理過程,一定有這個方法
    def process_item(self, item, spider):
        jsontext = json.dumps(dict(item),ensure_ascii=False) +'\n'
        self.file.write(jsontext)
        return item

    #結束時呼叫這個方法
    def close_spider(self,spider):
        self.file.close()

scrapy爬取詩詞網

入門scrapy不久,嘗試著寫一段程式碼爬取詩詞網. spider如下: class ShiciSpider(scrapy.Spider): name = 'shici' url = 'http://www.shicimingju.com/c

scrapy實戰1分布式爬取有緣網：

req 年齡 dict ems arch last rem pen war 直接上代碼： items.py 1 # -*- coding: utf-8 -*- 2 3 # Define here the models for your scraped items

Scrapy爬取慕課網(imooc)所有課程數據並存入MySQL數據庫

start table ise utf-8 action jpg yield star root 爬取目標：使用scrapy爬取所有課程數據，分別為 1.課程名 2.課程簡介 3.課程等級 4.學習人數並存入MySQL數據庫（目標網址 http://www.imoo

scrapy爬取校花網圖片

xiaohua.py # -*- coding: utf-8 -*- import scrapy from pyquery import PyQuery from scrapy.http import Request from ..items import XiaohuarItem class

運用scrapy爬取鏈家網房價並儲存到本地

因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並儲存到本地。先看鏈家網的原始碼。。房價資訊都儲存在 ul 下的li 裡面爬蟲結構：其中封裝了一個數據庫處理模組，還有一個user-agent池。。

scrapy爬取校花網男神圖片儲存到本地

爬蟲四部曲，本人按自己的步驟來寫，可能有很多漏洞，望各位大神指點指點 1、建立專案 scrapy startproject xiaohuawang scrapy.cfg: 專案的配置檔案xiaohuawang/: 該專案的python模組。之後您將在此加入程式碼。xiaohuawang/items.py: 專

網路爬蟲-使用Scrapy爬取千圖網素材

話說好久好久好久沒寫過scrapy的demo了，已經快忘得差不多了，今天一個小老弟讓我幫他看看怎麼大量快速爬取千圖網的素材，我進網站看了看，一是沒有什麼反爬措施，二是沒有封ip的限制，那這種情況，鐵定用scrapy這個非同步框架最舒服了，於是花了十幾分鍾看了看自

scrapy爬取前程無憂51job網職位資訊並存儲到資料庫

spiders中程式碼如下 import scrapy from scrapy import Request from QianCheng.items import QianchengItem import re class ExampleSpider(s

網路爬蟲之scrapy爬取某招聘網手機APP釋出資訊

1 引言 2 APP抓包分析 3 編寫爬蟲昂 4 總結 1 引言過段時間要開始找新工作了，爬取一些崗位資訊來分析一下吧。目前主流的招聘網站包括前程無憂、智聯、BOSS直聘、拉勾等等。有

python爬蟲爬取詩詞名句網

使用requests庫，xpath庫 import requests import time from lxml import etree # 去請求頁面的函式 def request_Header(url): headers = { 'User

Python scrapy 爬取拉勾網招聘資訊

週末折騰了好久，終於成功把拉鉤網的招聘資訊爬取下來了。現在總結一下！環境： windows 8.1 + python 3.5.0 首先使用 scrapy 建立一個專案： E:\mypy> scrapy startproject lgjob 建立後目錄結構：

文字分類（二）：scrapy爬取網易新聞

文字分類的第一項應該就是獲取文字了吧。在木有弄懂scrapy的情況下寫的，純應用，或許後續會補上scrapy的原理。首先說一下我的環境：ubuntu14.10 scrapy安裝指南（肯定官網的最權威了）：[傳送門](http://scrapy-chs.rea

scrapy爬取拉勾網python職位+Mysql+視覺化

在進行爬取目標網站中為遇到一個問題，爬取5頁資料之後會出錯，設定了每一次請求的隨機超時間10-20->time.sleep(random.randint(10, 20))，同樣會被拉勾網禁止請求資料，可能被輕度判定為爬取，所以可以設定每一次的隨機超時間為20-30秒，就可以解決這個問題。

scrapy爬取相似頁面及回撥爬取問題（以慕課網為例）

以爬取慕課網資料為例慕課網的資料很簡單，就是通過get方式獲取的連線地址為 https://www.imooc.com/course/list?page=2 根據page引數來分頁這個時

爬蟲專案：scrapy爬取暱圖網全站圖片

一、建立專案、spider，item以及配置setting建立專案：scrapy startproject nitu建立爬蟲：scrapy genspider -t basic nituwang nipic.com寫個item：# -*- coding: utf-8 -*-

Scrapy爬取網易雲音樂和評論（一、思路分析）

目錄：前提： scrapy這個框架很多人用過，網上教程也很多，但大多就是爬爬小說這種比較簡單且有規律的，網易雲音樂也有很多人寫過，也有API，不過大多是爬取了熱門歌曲，或是從歌單下手，但是考慮到歌單會有很多重複的。當然，從歌手頁的話，如果

Scrapy爬取淘寶網資料的嘗試

因為想學習資料庫，想要獲取較大量的資料，第一個想到的自然就是淘寶。。。。其中有大量的商品資訊，淘寶網反爬措施還是比較多，特別是詳情頁面還有噁心的動態內容該例子中使用Scrapy框架中的基礎爬蟲(CrawlSpider還有點沒搞清楚= = b) 先貼上整體程式碼 impo

Scrapy爬取拉勾網職位資訊

很多網站都用了一種叫做Ajax（非同步載入）的技術，通常我們會發現這種網頁，打開了，先給你看上面一部分東西，然後剩下的東西再慢慢載入，也就是區域性載入。所以你可以看到很多網頁，瀏覽器中的網址沒變，但是資料照樣是可以更新的。這對我們正確爬取資料造成了一定影響，我們

Scrapy爬蟲（5）爬取噹噹網圖書暢銷榜

本次將會使用Scrapy來爬取噹噹網的圖書暢銷榜，其網頁截圖如下：我們的爬蟲將會把每本書的排名，書名，作者，出版社，價格以及評論數爬取出來，並儲存為csv格式的檔案。專案的具體建立就不再多講，可以參考上一篇部落格，我們只需要修改items.py檔

python3 [爬蟲入門實戰]爬蟲之scrapy爬取中國醫學人才網

自己第一次試著用scrapy進行爬取網頁，總共爬下9240條資料，也就兩分鐘不到，400多頁吧。用的比較簡單，但是爬取成功後感覺成就感滿滿的。來張爬取結果圖爬取欄位： “hospitalName”: “hospitalDesc”

scrapy爬取詩詞網

相關推薦