scrapy爬蟲學習

阿新 • • 發佈：2017-10-27

scrapy爬蟲學習

windows下爬蟲腳本必須配置以下內容，否則出現編碼錯誤
import sys,io
sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding=‘gb18030‘)

一、爬取煎蛋網內容

items.py    #數據字段
import scrapy

class JiandanItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    content = scrapy.Field()
    img_url = scrapy.Field()
    
爬蟲腳本jiandan.py
import sys,io
sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding=‘gb18030‘)
import scrapy
from ..items import JiandanItem
from scrapy.selector import HtmlXPathSelector

class JianDanSpider(scrapy.Spider):
    name = "jiandan"

    allowed_domains = ["jandan.net"]
    start_urls = [
        "http://jandan.net/",
    ]

    def parse(self, response):
        #title_list = response.xpath(‘//div[@class="indexs"]//h2/a/text()‘).extract()
        hxs = HtmlXPathSelector(response)
        items = hxs.select(‘//div[@class="post f list-post"]‘)
        for item in items:
            img_url = item.select(‘.//div[@class="thumbs_b"]/a/img/@data-original‘).extract_first()
            if not img_url:
                img_url = item.select(‘.//div[@class="thumbs_b"]/a/img/@src‘).extract_first()
            img_url = img_url.strip("/")
            img_url = "http://"+img_url
            title = item.select(‘.//div[@class="indexs"]/h2/a/text()‘).extract_first()
            content = item.select(‘.//div[@class="indexs"]/text()‘).extract()[3]
            content = content.strip()
            obj = JiandanItem(title=title, img_url=img_url, content=content)
            yield obj
            
 pipelines.py#數據存儲腳本
 import json
import os
import requests

# class JiandanPipeline(object):
#     def process_item(self, item, spider):
#         return item

class JsonPipeline(object):    #items.py設置的字段存儲方式
    def __init__(self):
        self.file = open(‘jiandan.txt‘, ‘w‘)

    def process_item(self, item, spider):
        v = json.dumps(dict(item), ensure_ascii=False)
        self.file.write(v)
        self.file.write(‘\n‘)
        self.file.flush()
        return item

class FilePipeline(object):    #圖片url存儲方式
    def __init__(self):
        if not os.path.exists(‘imgs‘):
            os.makedirs(‘imgs‘)
    def process_item(self, item, spider):
        response = requests.get(item[‘img_url‘],stream=True)
        with open(‘1.jpg‘, mode=‘wb‘) as f:
            f.write(response.content)
        return item
        
settings.py#設置存儲
ITEM_PIPELINES = {
    ‘jiandan.pipelines.JsonPipeline‘: 100,
    ‘jiandan.pipelines.FilePipeline‘: 300,
}

命令行輸出json文件: scrapy crawl jiandan -o items.json

本文出自 “linux技術” 博客，請務必保留此出處http://haoyonghui.blog.51cto.com/4278020/1976840

scrapy爬蟲學習

scrapy爬蟲學習windows下爬蟲腳本必須配置以下內容，否則出現編碼錯誤 import sys,io sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding=‘gb18030‘) 一、爬取煎蛋網內容 items.py #數據字段 impor

Scrapy爬蟲學習筆記 - windows下搭建開發環境1

ima 搭建開發環境環境 navicat win pyc arm bsp mysql 一、pycharm的安裝和簡單使用二、mysql和navicat的安裝和使用三、wi

python3 + Scrapy爬蟲學習之創建項目

set 切換存儲域名 arm () 打開文件 ofo 實戰最近準備做一個關於scrapy框架的實戰，爬取騰訊社招信息並存儲，這篇博客記錄一下創建項目的步驟 pycharm是無法創建一個scrapy項目的因此，我們需要用命令行的方法新建一個scrapy項目請確保已經

爬蟲系列---Scrapy框架學習

產生 follow everyone 頁面 pos per iso select -s 項目的需求需要爬蟲某網的商品信息，自己通過Requests,BeautifulSoup等編寫了一個spider，把抓取的數據存到數據庫裏面。跑起來的感覺速度有點慢，尤其是進入詳情頁

【python學習筆記】37：認識Scrapy爬蟲,爬取滬深A股資訊

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。認識Scrapy爬蟲安裝書上說在pip安裝會有問題，直接在Anaconda裡安裝。建立Scrapy專案 PyCharm裡沒有直接的建立入口，在命令列建立（從Anaconda安裝後似乎自動就

原 Python資料爬蟲學習筆記（15）Scrapy常見命令及專案檔案介紹

一、Scrapy常見命令提示符CMD命令：（1）scrapy -h 檢視指令幫助。（2）scrapy fetch http://baidu.com 直接爬取特定網頁。（3）scrapy runspider scrapytest.py 執行特定爬蟲（前提要使用cd

Python資料爬蟲學習筆記（17）Scrapy糗事百科自動爬蟲

一、需求：在糗事百科主頁下，無需設定頁碼，自動爬取所有段子詳情頁的段子完整內容。（1）糗事百科主頁：（2）段子詳情頁：二、Scrapy實現思路：在糗事百科主頁上自動提取出所有段子的詳情連結，在每個段字詳情頁中爬取段子內容。三、網頁原始

【Python3 爬蟲學習筆記】Scrapy框架的使用 1

Scrapy功能非常強大，爬取效率高，相關擴充套件元件多，可配置和可擴充套件程度非常高，它幾乎可以應對所有發爬網站，是目前Python中使用最廣泛的爬蟲框架。 Scrapy框架介紹 Scrapy是一個基於Twisted的非同步處理框架，是純Python實現的爬蟲

python爬蟲學習筆記-scrapy框架之start_url

在使用命令列建立scrapy專案後，會發現在spider.py檔案內會生成這樣的程式碼： name = 'quotes' allowed_domains = ['quotes.toscrape.com'] start_urls = ['http://quotes.toscrape.com

爬蟲Scrapy指令學習

1、新建一個新的爬蟲專案指令 scrapy startproject xxx 2、在專案/spider目錄下建立一個名為XXX的爬蟲，並指定爬取域的範圍 scrapy genspider XXX "www.XXX.com" 3、執行執行命令 s

爬蟲學習之基於 Scrapy 的爬蟲自動登入

概述在前面兩篇（爬蟲學習之基於Scrapy的網路爬蟲和爬蟲學習之簡單的網路爬蟲）文章中我們通過兩個實際的案例，採用不同的方式進行了內容提取。我們對網路爬蟲有了一個比較初級的認識，只要發起請求獲取響應的網頁內容，然後對內容進行格式化儲存。很多時候我們抓取到的內容可能會發生重複，

Python 爬蟲 (六) -- Scrapy 框架學習

本文希望達到以下目標: 簡要介紹Scarpy 閱讀官網入門文件並實現文件中的範例使用Scarpy優豆瓣爬蟲的抓取制定下一步學習目標初學Scrapy, 如有翻譯不當, 或者程式碼錯誤, 請指出, 非常感謝 1. Scrapy簡介 Scrapy是一個為了爬取網站資料，提

爬蟲學習之基於Scrapy的網路爬蟲

在上一篇文章《爬蟲學習之一個簡單的網路爬蟲》中我們對爬蟲的概念有了一個初步的認識，並且通過Python的一些第三方庫很方便的提取了我們想要的內容，但是通常面對工作當作複雜的需求，如果都按照那樣的方式來處理效率非常的低，這通常需要你自己去定義並實現很多非常基礎的爬蟲框架上的功能，或者需要組合很多Python第

Python3.7網路爬蟲學習----安裝Scrapy(Windows)

Scrapy是基於Twisted框架，用Python語言編寫的跨平臺開源網路爬蟲框架。Scrapy的應用程式也是是用Python進行開發的，目前支援Python 2.7及Python3.4+版本。在任意系統下都可以用pip安裝Scrapy, 然而簡單的在shell裡（即c

python 爬蟲學習三（Scrapy 實戰，豆瓣爬取電影資訊）

利用Scrapy爬取豆瓣電影資訊主要列出Scrapy的三部分程式碼： spider.py檔案： # _*_ coding=utf-8 _*_ import scrapy from course.douban_items import DouBanItem from scra

python3利用Scrapy實現爬蟲--學習筆記

目的：需要從網頁上爬去一些資訊工具：Python scrapy爬去CSDN中部落格的閱讀排行第一步：建立scrapy專案 scrapy startproject XXX第二步：建立爬蟲進入專案目錄執行 scrapy genspider csdn_spider csdn.

Python資料爬蟲學習筆記（19）Scrapy模擬登入實現豆瓣使用者資訊爬蟲

一、需求：在豆瓣官網中，使用Scrapy實現模擬登入，並爬取登入後的個人中心介面中的使用者名稱及日記資訊資料。二、實現思路： 1、關於使用者名稱與密碼以及其提交網址：觀察登入網頁的原始碼，注意到使用者名稱與密碼都使用不同name屬性的input來輸入

爬蟲學習 pyspider和scrapy小結 / 與其他工具對比

從火車頭瞭解了翻頁與正則表示式帶入了爬蟲原理、後python的urllib和requests徹底梳理了爬蟲過程，之後引入phantomjs chromedriver這些徹底解決了爬蟲問題，但是這些太瑣碎，而且反爬蟲越來越厲害，必須升級爬取武器到專業級別。用p

python學習（三）scrapy爬蟲框架（三）——爬取桌布儲存並命名

寫在開始之前按照上一篇介紹過的scrapy爬蟲的建立順序，我們開始爬取桌布的爬蟲的建立。首先，再過一遍scrapy爬蟲的建立順序：第一步：確定要在pipelines裡進行處理的資料，寫好items檔案第二步：建立爬蟲檔案，將所需要的資訊從網站上爬

Python爬蟲學習6：scrapy入門（一）爬取汽車評論並儲存到csv檔案

一、scrapy 安裝：可直接使用Anaconda Navigator安裝，也可使用pip install scrapy安裝二、建立scrapy 爬蟲專案：語句格式為 scrapy startproject project_name生成的爬蟲專案目錄如下，其中spiders

scrapy爬蟲學習

相關推薦