Scrapy爬取並儲存到TXT檔案

阿新 • • 發佈：2019-01-24

在建立完成專案並建立爬蟲的基礎上，編寫儲存到TXT的專案

0.設定setting檔案

1.將 ROBOTSTXT_OBEY 設定為false

2.將 ITEM_PIPELINES 開啟

1.定義items.py資料容器

item是Scrapy提供的類似於字典型別的資料容器，它與字典最大的區別在於它規定了統一的資料規格樣式，即具有統一性與結構性。這樣既方便資料的儲存與處理，也可以避免打錯欄位或資料不一致的情況。

import scrapy


class BaikeItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()

2.編寫spiders.py

parse()方法控制爬取的連結與爬取結果的處理，通常我們在獲取連結後使用 scrapy.Request(url,callback=) 方法獲取網頁，可以callback=後面指定解析的方法。

在解析的方法中，需要定義一個字典型別 dic={},將解析完的結果，按照items定義的容器模板，更新字典內容，並將字典返回。使用return或yield返回，返回後值被pipelines獲取到。

class DemoSpider(scrapy.Spider):
    name = 'demo'
    # allowed_domains = ['mp.csdn.net']
    start_urls = ['http://www.gx211.com/collegemanage/content45_03.shtml']

    def parse(self, response):
        for i in range(45,1000):
            url='http://www.gx211.com/collegemanage/content'+str(i)+'_03.shtml'
            try:
                yield scrapy.Request(url, callback=self.parse_history)
            except:
                continue

    def parse_history(self, response):
        dic={}
        try:
            school = response.css('h1 a::text').extract()[0]
            dic['name'] = school
            yield dic
        except Exception as e:
            print(e)

3.在pipeline中處理並儲存資料

定義:

open_spider(self,spider)

----爬蟲開始執行時執行

close_spider(self,spider)

----爬蟲關閉時執行

process_item(self,item,spider)

----在有spiders中的parse函式返回值時執行

我們在open_spider中開啟一個txt檔案，如果沒有該檔案則建立，並指定文字寫入模式：

在此處指定寫入的編碼格式為'utf-8' (預設'gdk')

    def open_spider(self,spider):
        self.file = open('items2.txt', 'w'，encoding='utf-8')

在close_spider中關閉txt檔案的寫入：

    def close_spider(self,spider):
        self.file.close()

在process_item中指定item中內容按照一定格式寫入txt檔案:

    def process_item(self, item, spider):
        try:
            res=dict(item)
            line=res['name']
            self.file.write(line+'\n')
        except:
            pass

注意：

windows預設的檔案寫入格式為'gdk'，我們往往要改變編碼才能正確寫入檔案，

在open方法中指定編碼方式為'utf-8'是常用的防止亂碼和無法寫入問題方法

1.為了便於處理，我們首先要將item使用dict()轉化為字典型別

2.文字預設為unicode編碼，這樣無法寫入到txt檔案中，我們需要將其轉換為‘utf-8'編碼

可以對unicode字元使用str()方法轉化為字串，這樣可以將其寫入TXT，但編碼還是Unicode

可以對unicode字元使用.encode('utf-8')方法，寫入TXT中開啟便是中文。

由於python2對漢字不太友好，導致這部分造成了額外的麻煩

全部程式碼：

spiders/demo.py

# -*- coding: utf-8 -*-
import scrapy
import re


class DemoSpider(scrapy.Spider):
    name = 'demo'
    # allowed_domains = ['mp.csdn.net']
    start_urls = ['http://www.gx211.com/collegemanage/content45_03.shtml']

    def parse(self, response):
        for i in range(45,1000):
            url='http://www.gx211.com/collegemanage/content'+str(i)+'_03.shtml'
            try:
                yield scrapy.Request(url, callback=self.parse_history)
            except:
                continue

    def parse_history(self, response):
        dic={}
        try:
            school = response.css('h1 a::text').extract()[0]
            dic['name'] = school
            yield dic
        except Exception as e:
            print(e)

items.py

import scrapy


class BaikeItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()

pipelines.py

class BaikePipeline(object):

    def open_spider(self,spider):
        self.file = open('items2.txt', 'w')

    def close_spider(self,spider):
        self.file.close()

#item在後期使用的時候還要轉換回來，他存在的意義只是防止出錯導致程式中止
    def process_item(self, item, spider):
        try:
            res=dict(item)
            line=res['name']
            self.file.write(line.encode('utf-8')+'\n')
        except:
            pass

Scrapy爬取並儲存到TXT檔案

在建立完成專案並建立爬蟲的基礎上，編寫儲存到TXT的專案 0.設定setting檔案 1.將 ROBOTSTXT_OBEY 設定為false 2.將 ITEM_PIPELINES 開啟 1.定義items.py資料容器 item是Scrapy提供的類似於字典型別的資

神級python碼農教你爬取並儲存百度雲資源，你懂得~

網路爬蟲又被稱為網路機器人，網頁蜘蛛，在FOAF社群中間稱為網頁追逐者。是按照一定的規則，自動抓取資訊的程式或者指令碼。這篇文章主要介紹Python爬蟲框實戰之抓取並儲存百度雲資源！免費給廣大python愛好者提供資源！）尋找並分析百度雲的轉存api 首先你得有一個

scrapy爬取資料儲存csv、mysql、mongodb、json

目錄前言 Items Pipelines 前言用Scrapy進行資料的儲存進行一個常用的方法進行解析 Items item 是我們儲存資料的容器，其類似於 python 中的字典。使用 item 的好處在於： Item 提供了額外保護機制來避免拼寫錯誤導致

利用Python3對網易的某個話題進行爬取並儲存圖片到本地

__author__ = 'tom' import urllib.request import json import time baseDir = '/Users/tom/netease/{0}' request = 'http://url.163.com/{0}

豆瓣電影資訊爬取並儲存到excel

import re import openpyxl import requests from bs4 import BeautifulSoup class Movie(object): def __init__(self, title, h

scrapy 詳細例項-爬取百度貼吧資料並儲存到檔案和和資料庫中

Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中。使用框架進行資料的爬取那，可以省去好多力氣，如不需要自己去下載頁面、資料處理我們也不用自己去寫。我們只需要關注資料的爬取規則就行，scrap

scrapy爬蟲框架（三）：爬取桌布儲存並命名

寫在開始之前按照上一篇介紹過的 scrapy爬蟲的建立順序，我們開始爬取桌布的爬蟲的建立。首先，我們先過一遍 scrapy爬蟲的建立順序：第一步：確定要在pipelines裡進行處理的資料，寫好items檔案第二步：建立爬蟲檔案，將所需要的資訊從

運用scrapy爬取鏈家網房價並儲存到本地

因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並儲存到本地。先看鏈家網的原始碼。。房價資訊都儲存在 ul 下的li 裡面爬蟲結構：其中封裝了一個數據庫處理模組，還有一個user-agent池。。

【爬蟲】Scrapy 爬取excel中500個網址首頁，使用Selenium模仿使用者瀏覽器訪問，將網頁title、url、文字內容組成的item儲存至json檔案

建立含有網址首頁的excel檔案 host_tag_網站名稱_主域名_子域名.xlsx 編輯讀取excel檔案的工具類專案FileUtils 新建專案FileUtils 編輯file_utils.py # -*- coding: utf-8 -*- """

Scrapy爬取知名技術網站文章並儲存到MySQL資料庫

之前的幾篇文章都是在講如何把資料爬下來，今天記錄一下把資料爬下來並儲存到MySQL資料庫。文章中有講同步和非同步兩種方法。所有文章文章的地址：http://blog.jobbole.com/all-posts/ 對所有文章

Python爬蟲系列：爬取小說並寫入txt檔案

Python爬蟲系列 ——爬取小說並寫入txt檔案文章介紹瞭如何從網站中爬取小說並寫入txt檔案中，實現了單章節寫取，整本寫取，多執行緒多本寫取。爬蟲使用的python版本為python3，有些系統使用python指令執行本指令碼，可能出現錯誤，

爬蟲--使用scrapy爬取糗事百科並在txt文件中持久化存儲

max color 圖片得到 acc deb ould ins ant 工程目錄結構　spiders下的first源碼　　 # -*- coding: utf-8 -*- import scrapy from firstBlood.items imp

Scrapy爬取圖片並儲存

Scrapy提供了一個 item pipeline ，來下載屬於某個特定專案的圖片，比如，當你抓取產品時，也想把它們的圖片下載到本地。本文接豆瓣top250電影，爬取海報圖片。一、Images

python學習（三）scrapy爬蟲框架（三）——爬取桌布儲存並命名

寫在開始之前按照上一篇介紹過的scrapy爬蟲的建立順序，我們開始爬取桌布的爬蟲的建立。首先，再過一遍scrapy爬蟲的建立順序：第一步：確定要在pipelines裡進行處理的資料，寫好items檔案第二步：建立爬蟲檔案，將所需要的資訊從網站上爬

使用Scrapy爬取圖片入庫,並儲存在本地

使用Scrapy爬取圖片入庫,並儲存在本地上篇部落格已經簡單的介紹了爬取資料流程,現在讓我們繼續學習scrapy 目標: 爬取愛卡汽車標題,價格以及圖片存入資料庫,並存圖到本地好了不多說,讓我們實現下效果我們仍用scrapy框架來編寫我們的專案

Scrapy爬取慕課網(imooc)所有課程數據並存入MySQL數據庫

start table ise utf-8 action jpg yield star root 爬取目標：使用scrapy爬取所有課程數據，分別為 1.課程名 2.課程簡介 3.課程等級 4.學習人數並存入MySQL數據庫（目標網址 http://www.imoo

★ Python爬蟲 - 爬取網頁文字資訊並儲存（美文的爬取與儲存）

本篇文章所包含的主要內容：使用requests模組實現對網頁以字串的形式儲存使用open()、write()、close()函式實現檔案的開啟與寫入使用if() 條件語句對所需要的文字資訊進行過濾以形成一個專用提取函式 &n

跟新顯示檔案並將檔案轉換成文字儲存txt檔案

# -*- coding: utf-8 -*- import os import time from PIL import Image import pytesseract OLD=[] NEW=[] def file_name(file_dir):

Scrapy框架的應用———爬取糗事百科檔案

專案主程式碼： 1 import scrapy 2 from qiushibaike.items import QiushibaikeItem 3 4 class QiubaiSpider(scrapy.Spider): 5 name = 'qiubai' 6

scrapy爬取校花網男神圖片儲存到本地

爬蟲四部曲，本人按自己的步驟來寫，可能有很多漏洞，望各位大神指點指點 1、建立專案 scrapy startproject xiaohuawang scrapy.cfg: 專案的配置檔案xiaohuawang/: 該專案的python模組。之後您將在此加入程式碼。xiaohuawang/items.py: 專

Scrapy爬取並儲存到TXT檔案

0.設定setting檔案

1.定義items.py資料容器

2.編寫spiders.py

3.在pipeline中處理並儲存資料

相關推薦