scrapy 初體驗

阿新 • • 發佈：2018-12-17

scrapy 爬蟲

目標把gank上的圖片趴下來

// 初始化專案
scrapy startproject demo

修改items物件

import scrapy
import os
import requests


class GankItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    imageurl = scrapy.Field()
    url = scrapy.Field()
    pass

    def canParse(self):
        return self['name'] != '' and self['imageurl'] != ''

    def downLoad(self, imagepath):
        filename = 'file'
        files = self['url'].split("/")
        if len(files) > 3:
            filename = files[len(files) - 3] + "-" + files[len(files) - 2] + "-" + files[len(files) - 1]
        suffix = "jpg"
        data = self['imageurl'].split(".")

        if len(data) >= 2:
            suffix = data[len(data) - 1]

        path = imagepath + "/" + filename + "." + suffix
        if not os.path.exists(path):
            print('下載檔案')
            with open(path, 'wb') as fp:
                r = requests.get(self['imageurl'])
                fp.write(r.content)

piplines

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

imags="./images"

class GankPipeline(object):
    def process_item(self, item, spider):
        if item.canParse():
            item.downLoad(imags)

        pass

新建ganksprider


import scrapy

from demo.spiders.gank import GankItem

class GankSpider(scrapy.Spider,count=1):
    name="gank"

    allowed_domains = ["gank.io"]
    start_urls=["https://gank.io/2018/10/22"]
    def parse(self, response):
        item=GankItem()
        item['url'] = response.url
        item['name']=response.xpath('//div[@class="container content"]/h1/text()').extract()[0]
        item['imageurl']=response.xpath('//div[@class="container content"]/div[@class="outlink"]//p/img/@src').extract()[0]

        return item
        newcontent =response.xpath('//div[@class="container content"]/div[@class="row"]/div[@class="six columns"]/p[@style="text-align: right"]/a/@href').extract_first()
        if newcontent:
            newurl="https://gank.io"+newcontent
            print(newurl)
            yield scrapy.Request(newurl, callback=self.parse)

修復setting 開啟

ITEM_PIPELINES = {
   'gank.pipelines.GankPipeline': 300,
}

就跑起來了

scrapy crawl xxx

python從零學——scrapy初體驗

python從零學——scrapy初體驗近日因為一些事情，需要從網上爬取一些東西，故而想通過使用爬蟲來順便學習下強大的python。現將一些學習中遇到的問題記錄下來，以便日後查詢 1. 開發環境的準備（本人windows10 x64） python的爬蟲框架應該說是有挺多的了，使用sc

scrapy 初體驗

scrapy 爬蟲目標把gank上的圖片趴下來 // 初始化專案 scrapy startproject demo 修改items物件 import scrapy import os import

scrapy爬蟲初體驗

title 回調函數 res log 令行 nbsp esp code extra import scrapy class StackOverflowSpider(scrapy.Spider): name="stackoverflow" start_ur

scrapy 爬蟲利器初體驗(1)

目錄前言 scrapy 資料流 scrapy 元件爬取豆瓣電影 Top250 後記送書後話前言為什麼要學 scrapy 呢？看下圖，就清楚了。很多招聘要求都有 scrapy，主要是因為 scrapy 確實很強。那到底強在哪裡呢？請在文中找答案。

小程序初體驗：手把手教你寫出第一個小程序（一）

輸入框個人創建公測快速 nsh 成功 too 調用本文筆者將根據quick start中的範例代碼，帶大家簡單地剖析一下小程序的運行方式，並介紹小程序開發中一些通用的特性，帶著大家一步步寫出自己的小程序。適用對象：前端初學者，對小程序開發感興趣者 tip

vue.js2.0 自定義組件初體驗

最新解綁然而 blog bool template 警告 rem 組件理解組件（Component）是 Vue.js 最強大的功能之一。組件可以擴展 HTML 元素，封裝可重用的代碼。在較高層面上，組件是自定義元素， Vue.js 的編譯器為它添加特殊功能。在有些

weblogic初體驗

xsd 體驗 target java語言註意 true 中間件鼠標使用之前一直是用的tomcat，由於業務需要，需要使用weblogic部署項目，在這裏大概的記錄一下 weblogic是oracle出品的WEB容器，確切的說是一個基於JavaEE架構的中間件，使用

python初體驗

list python 字典 python初體驗:1.python種類 CPython 代碼 -> C字節碼 -> 機器碼（一行一行） pypy 代碼 -> C字節碼 -> 機器碼全部轉換完 -> 執行其他Python 代碼 -&g

Android逆向分析初體驗

目錄搜索比較 .com -1 動態調試總結為我修改一、準備知識 1. 懂Java Android開發。 2. 懂NDK ，C 語言 Android 動態鏈接庫.SO開發。 3.

【Spark深入學習 -15】Spark Streaming前奏-Kafka初體驗

rod htm 新的 callback tails 包括 -c 舉例清理 ----本節內容------- 1.Kafka基礎概念 1.1 出世背景 1.2 基本原理 1.2.1.前置知識 1.2.2.架構和原理 1.2.

vue.js 初體驗— Chrome 插件開發實錄

原創控件 https ext 方案程序實現瀏覽器中 display 博客歡迎大家關註騰訊雲技術社區-博客園官方主頁，我們將持續在博客園為大家推薦技術精品文章哦~ 作者：陳緯傑背景對於經常和動畫開發打交道的開發者對於Animate.css這個動畫庫不

1Python全棧之路系列之Django初體驗

編寫程序 online 網絡開發程序員堪薩斯 Python全棧之路系列之Django初體驗Django不得不說在Python中是一個非常強大的全棧框架，而且入門也比較簡單，只要你學完了基本的Django知識，接著再做一兩個項目，不大不小就成，然後你再去學其它的框架你會發現，在那些小而美

flask+jsonp跨域前後臺交互（接口初體驗）

script keys 返回 == 方法 png 前後臺 true run 1 # -*- coding: utf-8 -*- 2 from flask import Flask, jsonify 3 import psutil, time,json 4 5

Hibernate_01_初體驗

基礎上 font cal close mysq getprop build nec address Hibernate的一個小例子（慕課網教程整理的代碼）：首先在eclipse--help--Eclipse MarketPlace中搜索“jboss Tool” 導入hi

zTree初體驗（一）——小試牛刀

插件 root tracking per margin 接受 dsm 獲取實現 zTree 是一個依靠 jQuery 實現的多功能 “樹插件”。優異的性能、靈活的配置、多種功能的組合是 zTree 最大長處。 ——zTree官網 zTree v3

Git初體驗——git項目開發流程

創建目錄管理文本目錄 ria 遠程歷史 zookeepe clas 眾所周知，Git是一款版本控制軟件，之前總是習慣把每次修改後的代碼打包並且標註好時間等信息加以區分，使用git之後就完全不需要這麽做了。 1.安裝git：官網下載安裝即可，沒什麽復雜的步驟 2.新

phantomjs2.1 初體驗

http dom canvas ima 行為 pen 廣告自動 str 上次看了一下scrapy1.1的新手指南決定寫個小爬蟲實驗一下目標網站是http://www.dm5.com/manhua-huofengliaoyuan準備爬取漫畫火鳳燎原的已有章節，將圖片保存

Maven項目搭建（一）：Maven初體驗

測試類 java平臺存在 ack 做的 rar cli maven2 試用今天給大家介紹一個項目管理和綜合工具：Maven。 Maven: maven讀作 [‘meivin]，本意是指可以被信任的領域專家，致力於傳播知識(來自於http://en.wikip

python的初體驗

多行註釋導致 passwd 判斷語句 swd pytho 對齊輸入 tab 最近由於畢業答辯，導致一些博客沒有更新，見諒，今天我們開始一些新的內容　　1.python的註釋　　　　單行註釋:# 　　　　多行註釋: 　　　　　　‘‘‘ 　　　　　　　這是多行註釋　　

mongodb初體驗

增刪條件 date remove 集成 b- htm 結構 opd 今天上午找資料，發現了mongodb，閑來無事就研究了下，本人用的是phpstudy集成包添加mongodb擴展。 1.添加mongo、mongodb擴展　　phpstudy集成環境一般

scrapy 初體驗

目標把gank上的圖片趴下來

相關推薦