重寫第一個爬蟲程式

阿新 • • 發佈：2018-11-23

第一個爬蟲程式是利用scrapy命令建立好之後，直接編寫程式碼實現的。文章見 [
scrapy 從第一個爬蟲開始]，本文將利用item，pipeline以及檔案儲存重寫此程式，從而使大家更好的理解。

一、首先是image.py程式

# -*- coding: utf-8 -*-
import scrapy
from image.items import ImageItem
from scrapy.http import Request
import sys
 
class ImageSpider(scrapy.Spider):
    name = 'image'
    allowed_domains = ['xdcd.com']

    base = 'https://xkcd.com/'
    start_urls = ['https://xkcd.com/1']
    
    def parse(self, response):
    	item = ImageItem()
    	item['title'] = ''
    	item['url'] = ''

    	item['title'] = response.xpath('//div[@id="ctitle"]/text()').extract()[0]

    	for urlSelector in response.xpath('//div[@id="comic"]'):
    		urls = urlSelector.xpath('img/@src').extract()
    		
    		if len(urls):
    			item['url'] = 'https:' + urls[0]
    		else:
    			urls = urlSelector.xpath('a/img/@src').extract()
    			if len(urls):
    				item['url'] = 'https:' + urls[0]

    		if item['title'] and item['url']:
    			yield item

    	nextPageSelector = response.xpath('//div[@id="middleContainer"]/ul[@class="comicNav"]')
    	urlStr = nextPageSelector.xpath('li/a/@href').extract()[3]
    	urlArr = urlStr.split('/')
    	print(urlArr)
    	if len(urlArr) >= 2:
    		nextPageUrl = self.base + str(urlArr[1]) + '/'
    		yield Request(nextPageUrl, callback=self.parse, dont_filter = True)

這段程式碼的改動包括以下幾個方面：
1 從當前頁獲取下一頁的url，而不是把設定start_urls為所有的頁面url，更接近實際

2 使用了item，item是要爬取的資料結構定義，比如這裡我們定義了title,url兩個欄位，程式碼在items.py裡，注意引入方式

3 利用yield關鍵把item傳遞給pipeline進行清洗，過濾或者持久化處理；同時利用yield處理下一頁的請求，注意引數為url，回撥函式即處理response的函式名稱，第三個引數告訴爬蟲不進行過濾處理，否則會被去重過濾掉

yield Request(nextPageUrl, callback=self.parse, dont_filter = True)

二、items.py程式

# -*- coding: utf-8 -*-

import scrapy
class ImageItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    url = scrapy.Field()

三、pipelines.py程式

# -*- coding: utf-8 -*-

# Define your item pipelines here
import json

class ImagePipeline(object):
	def __init__(self):
		self.file = open('data.json', 'wb')

	def process_item(self, item, spider):
		line = json.dumps(dict(item)) + "\n"
		self.file.write(line.encode())
		return item

這裡就是處理item，過濾或者持久化，此處是儲存到data.json檔案裡，注意這裡line需要呼叫encode方法，否則會報錯，大概是兩種string型別的問題。

到此，第一個爬蟲程式就重新完成了，也更清楚利用scrapy進行資料爬取的整個資料流程。

重寫第一個爬蟲程式

第一個爬蟲程式是利用scrapy命令建立好之後，直接編寫程式碼實現的。文章見 [ scrapy 從第一個爬蟲開始]，本文將利用item，pipeline以及檔案儲存重寫此程式，從而使大家更好的理解。一、首先是image.py程式 # -*- coding: utf-8 -*-

python第一個爬蟲程式

轉載https://www.cnblogs.com/Axi8/p/5757270.html 把python2的部分改成python3了，爬取百度貼吧某帖子內的圖片。 #coding:utf-8 import urllib.request#python3 i

Python網路爬蟲學習筆記——第一個爬蟲程式

執行環境語言 Python3 第三方庫 pip install reqeusts pip install BeautifulSoup4 pip install jupyter 線上編輯器安裝 jupyter 模組後，在cmd視窗中執行命令jupyte

用Python第一個爬蟲程式（urllib.request)

這是博主第一個小爬蟲程式，紀念一下 2018/09/20 之前在ubuntu裡面已經實現，不過今天開始使用pycharm，折騰了一上午…終於打出來了。話不多說… 目標：爬取博主一篇博文(Path of Python – 爬蟲)裡面的遊覽數。 import r

Python爬蟲入門——2. 1 我的第一個爬蟲程式

第一個爬蟲程式就寫的簡單一點，我們用requests庫以及BeautifulSoup庫來完成我們的第一個程式（我們所用的python版本為 3.x）。我們爬取豆瓣圖書（https://book.douban.com/top250?start=25）Top1

第一個爬蟲程式，基於requests和BeautifulSoup

斷斷續續學了1年多python，最近總算感覺自己入門了，記錄下這幾天用requests和BeautifulSoup寫的爬蟲。 python的環境是anaconda+pycharm。直接上程式碼 @requires_authorization """

第一個爬蟲小程式(攜帶登陸後的cookie)

import requests class TiebaSpider: def __init__(self,tieba_name): """ 初始化引數,完成基礎配置 """ self.tieba_name = tieba_name self.url_base = "ht

第一個爬蟲

itl shee 整理 sam 一個 ext select article pen import requests import pandas as pd from bs4 import BeautifulSoup import json import pandas

第一個爬蟲程序

head cache max app 爬蟲 ofa conn parser quest from urllib import request from urllib import parse from bs4 import BeautifulSoup req =req

第一個爬蟲代碼

/usr wow64 print exc reg mozilla getc idt size # !/usr/bin/python#coding=GBKimport urllib.requestimport re#file=open("F:/python_workspace

python第一個爬蟲的例子抓取數據到mysql，實測有數據

入mysql數據庫 nor gecko /usr png 支持 web local webkit python3.5 先安裝庫或者擴展 1 requests第三方擴展庫 pip3 install requests 2 pymysql pip3 install pym

python第一個爬蟲腳本

python -c get makedirs www 腳本 data close htm import urllib.requestimport reimport os url = "http://www.budejie.com/" # 爬的地址 def get_page

我的第一個爬蟲，爬取北京地區短租房信息

爬取 connect except links 效率 chrom cti clas 爬蟲 # 導入程序所需要的庫。import requestsfrom bs4 import BeautifulSoupimport time# 加入請求頭偽裝成瀏覽器headers = {

我的第一個小程式呼叫scanf語句

define _CRT_SECURE_NO_WARNINGS include<stdio.h> #include<stdlib.h> int main(){ int a = 1; scanf("%d", &a); if (a < 2){ prin

第一個爬蟲開始前決定你的Python版本，你要使用什麼寫爬蟲，爬蟲認知篇（3）

Python入門當然建議直接學Python3了，畢竟是趨勢。而且Python3中對於字元編碼的改動會讓新手省掉很多很多很多關於字元編解碼問題的糾結。另一方面看你專案大小吧。如果自己寫程式碼，Python2和Python3沒啥區別。但是

手把手教您編寫第一個微控制器程式

51微控制器的開發環境是Keil 軟體。Keil 軟體雖然是一個收費軟體，但從uVision2到目前的uVison4版本都有破解版，在網上都可以找到下載。筆者推薦大家使用uVisong4破解版本，好處不用多說。Keil uVision4軟體的壓縮包裡附有安裝和破解說明，本文不再贅述。開發一個微控制器程式，

微信小程式之：雲開發初體驗--致我的第一個小程式

背景：一直關注微信小程式的發展，看著小程式一步步完善，一步步壯大，心裡癢癢，也想做一個自己的微信小程式，但是苦於只會前端，不會服務端，所以想法一直被卡著。現在小程式有了雲開發，很輕鬆實現後端功能，寫後端跟寫前端沒啥區別，真的是前端小夥伴們的福音啊。經過幾個晚上的熬夜奮戰，我的第一個微信小程式正式

2.我的第一個小程式（獲取使用者資訊--包括敏感資訊）

小友初學微信小程式開發，如果有些問題不對，請指出，謝謝我還是來說一下我的學習之路吧！！！原始碼地址：密碼：luh0 1.在開發小程式的時候，我們需要吧開發工具中的不校驗合法域名、web-view（業務域名）、TLS 版本以及 HTTPS 證書這個給

python3基礎(一)-第一個指令碼程式和運算子

1、什麼是python? python是一個解釋性語言。而類似於java是一個編譯性語言。簡單來說，python就相當於同聲傳譯，實時的解釋並執行,拿著原始碼就可以執行。而java則是全部編譯完成後，才能執行。 2、第一個.py程式01test.py #encoding=U

Kubernetes系列之三：部署你的第一個應用程式到k8s叢集

部署你的第一個應用程式到k8s叢集看到這裡，求知慾飢渴難耐的你一定在想，怎麼部署的我們應用程式到叢集裡面去呢？來個簡單的，只需要兩步:(這裡本文使用nginx映象當我們的應用程式，因為nginx 簡單，執行起來後直接可以用瀏覽器訪問網頁了。) 第一步：在master 節點上建立一個

重寫第一個爬蟲程式

相關推薦