建立scrapy 專案框架

阿新 • • 發佈：2018-11-06

建立專案
scrapy startproject project_name
建立spider
cd project_name
scrapy genspider 模組名網址
scrapy genspider hangzhou www.xxxx.com
目錄結構
├── hangzhounews – 專案根目錄
│ ├── init.py
│ ├── pycache --python執行臨時檔案 pyc
│ │ ├── init.cpython-36.pyc
│ │ └── settings.cpython-36.pyc
│ ├── items.py – 用來定義爬取哪些內容（類似Django中的models）
│ ├──

middlewares.py --中介軟體
│ ├── pipelines.py --管道，用來處理爬取的資料
│ ├── settings.py --配置檔案
│ └── spiders --自定義爬蟲包
│ ├── init.py
│ ├── pycache
│ │ └── init.cpython-36.pyc
│ └── hangzhou.py --一個爬蟲檔案
└── scrapy.cfg – 部署時候用的配置檔案

class HangzhouSpider(scrapy.Spider):
    name = 'hangzhou'
    allowed_domains = ['hznews.hangzhou.com.cn']
    start_urls = ['http://hznews.hangzhou.com.cn/']

# 如果不重寫start_requests方法 父類的方法會自動迭代start_urls生成一個生成器，每個元素為一個scrapy.Request()物件

    def start_requests(self):
        print('1,start request')
        for url in self.start_urls:
            # 生成一個Request物件，callback為None則表示，回撥函式為parse
            print('2,生成Request物件')
            req = scrapy.Request(url,callback=None)

            # start_requests的返回值應該是一個可迭代物件。列表之類都可以，儘量使用yield關鍵字構造生成器
            print('3,生成器')
            yield req


    def parse(self, response):
        print('4,解析')
        print(response)

        # 型別為<class 'scrapy.selector.unified.SelectorList'>
        all_news = response.xpath('//td[@class="hzwNews_L_link"]/a')

        item = {}
        for news in all_news:
            # news 型別為Selector
            headline = news.xpath('.//text()').extract_first()
            href = news.xpath('.//@href').extract_first()
            item['headline'] = headline
            item['href'] = href
			print(item)
            yield item

注：

    SelectorList物件:可以看做Selector的列表集合。可迭代
    關鍵方法 extract()=getall()。extract_first() = get()
    extract()取出SelectorList中的Selector依次執行.get()方法。將結果放在列表中返回。
        def getall(self):
            return [x.get() for x in self]
        extract = getall()
        
    extract_first()取出SelectorList中的第一個Selector，返回Selector.get()。即返回第一個Selector的文字資訊
        def get(self, default=None):
            for x in self:
                return x.get()
            else:
                return default
        extract_first = get
        
    Selector：
    關鍵方法
    get() = extract() 。getall() 
    extract()將Selector中的文字提取出來。返回值為str。
    getall() 將Selector中的文字提取出來。放在列表中。列表中只有一個元素

終端執行：scrapy crawl hangzhou --nolog
結果
1,start request
2,生成Request物件
3,生成器
4,解析
<200 http://hznews.hangzhou.com.cn/>
{‘headline’: ‘杭州構建"一心八射"交通網 1小時通勤圈來了’, ‘href’: ‘http://hznews.hangzhou.com.cn/chengshi/content/2018-10/29/content_7088441.htm’}
{‘headline’: ‘文一路隧道形成8個大小堵點如何緩解？’, ‘href’: ‘http://hznews.hangzhou.com.cn/chengshi/content/2018-10/29/content_7088393.htm’}
{‘headline’: ‘杭州開啟陽光常駐模式早晚溫差有點大’, ‘href’: ‘http://hznews.hangzhou.com.cn/chengshi/content/2018-10/29/content_7088317.htm’}
{‘headline’: ‘杭州發出國際級軟體名城建立政策“大禮包”’, ‘href’: ‘http://hznews.hangzhou.com.cn/jingji/content/2018-10/29/content_7088345.htm’}
{‘headline’: ‘東站"乞討奶奶"家有五層樓存款超10萬’, ‘href’: 。。。

建立scrapy 專案框架

建立專案 scrapy startproject project_name 建立spider cd project_name scrapy genspider 模組名網址 scrapy genspider hangzhou www.xxxx.com 目錄結構

pycharm如何快速建立scrapy專案

1.安裝scrapy pip install scrapy 或者去Project Interpreter裡面新增scrapy庫 2.在指定資料夾或者pycharm裡面的終端中執行命令 scrapy st

【python】pycharm 如何快速建立scrapy專案

由於pycharm中無法直接建立scrapy 專案, 所以必須通過控制檯呼叫scrapy建立專案然後匯入到IDE中。在網上查了一些資料，大多數都是要從terminal新增環境變數，其實不用那麼麻煩。我是用下pycharm中操作的： 1. 進入pycharm，點選file&

SMM框架--maven建立web專案

1、首先新建一個maven專案，看圖： 2、按照以上步驟就可以建立一個maven專案，可以看到最下圖的目錄結構，但是這樣的目錄結構是不對的，需要做一些修改。首先為了避免亂碼，我們應該將專案編碼換成UTF-8，以後專案編碼都採用UTF-8，加個字元編碼過濾器，亂碼就不再“亂”了（不表示

scrapy爬蟲框架（二）：建立一個scrapy爬蟲

在建立新的scrapy爬蟲之前，我們需要先了解一下建立一個scrapy爬蟲的基本步驟一、確定要爬取的資料以爬取豆瓣電影資料為例：每部電影所要爬取的資訊有：片名:《頭號玩家》導演: 史蒂文·斯皮爾伯格編劇: 扎克·佩恩 / 恩斯特·克萊

使用scrapy 建立爬蟲專案

使用scrapy 建立爬蟲專案步驟一： scrapy startproject tutorial 步驟二： you can start your first spider with: cd tutorial scrapy genspider example example.

第二章 python分散式爬蟲打造搜尋引擎環境搭建第一節建立第一個scrapy專案

scrapy可以執行在python2.7、python3.3或者是更高的版本上；首先我們借用之前的知識，建立一個python環境。然後在此python環境中建立我們的scrapy專案。這裡你如果不理解的可以給你們大個比方，python版本就好比是

Scrapy專案部署到Gerapy分散式爬蟲框架流程

1 準備工作（1）安裝Gerapy 通過pip install gerapy即可（2）安裝Scrapyd 通過pip install scrapyd即可（3）寫好的Scrapy專案，如： 2 開始部署（1）在電腦任意位置新建一個資料夾，如：（2）開

python web框架學習（2）——建立Django專案

Django 帶有一個名為 django-admin.py 的工具，如果使用的是 Windows 系統，它會安裝到 Scripts 資料夾下，該資料夾位於 Python 安裝目錄下，如 C:\Python27\Scripts 。對於 Windows 系統，需要手

【SSM】Eclipse使用Maven建立Web專案+整合SSM框架

自己接觸ssm框架有一段時間了，從最早的接觸新版ITOO專案的（SSM/H+Dobbu zk），再到自己近期來學習到的《淘淘商城》一個ssm框架的電商專案。用過，但是還真的沒有自己搭建過，一直都是用別人搭建好的。所以，從網上找了一些材料，結合自己來解決過程

用scrapy建立爬蟲專案

建立專案和爬蟲: 1.建立專案:`scrapy startproject [爬蟲的名字]` 2.建立爬蟲:進入到專案所在的路徑,執行命令:`scrapy genspider [爬蟲名字] [爬蟲的域名]注意：爬蟲名字不能和專案名稱一致專案目錄結構: 1. Items.py:用來存放爬蟲爬取下來

python爬蟲九：如何在pycharm中安裝scrapy，建立一個scrapy專案

親身經歷，非常痛苦1.網上嘗試各種辦法都沒成功~，很是蛋疼，最後只能死馬當活馬醫，http://landinghub.visualstudio.com/visual-cpp-build-tools下載Visual C++ 2015 Build Tools2.下好後，靜靜等靜靜

IDEA建立maven專案整合SSM框架

IDEA整合SSM框架記錄下自己用idea來搭建SSM框架的步驟。為新手指指路,也為自己留個後路! 建立maven專案由於ssm框架有很多jar包需要匯入,因此我們選擇用maven來管理專案。如果有不會建立maven專案的同學,請參考我的這篇文章 : IDEA建立maven專案

使用Eclipse 建立maven專案搭建ssm框架

一:整體專案結構圖二:建立maven專案三:pom.xml配置<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

MyEclipse使用Maven建立web專案+搭建SSM框架教程

使用maven已經有一段時間了，但專案是別人搭建好的，因此一直想著自己要學習搭建一下。網上找了些資料後，結合自己的實驗，花了點時間就搞好了，老樣子，寫在部落格上，免得日後忘記。安裝maven和配置 1、下載maven.apache.org/downl

使用IDEA進行struts2+Spring+mybatis+maven框架整合（一）建立maven專案併發布

1、IDEA新建Maven專案：（1）依次點選File->New->Project，彈出如下對話方塊：（2）在彈出的New Project頁面上，①選擇Maven，② 勾選Create from artifactype，③選擇maven-arc

Django框架簡介和建立django專案的基本流程

1、Django簡介 Django是Python語言中的一個web框架，Python語言中主流的web框架有Django、Tornado、Flask 等多種。Django相較與其它WEB框架，其優勢為：大而全，框架本身集成了ORM、模型繫結、模板引擎、快取、Session等功能，是一個全

Python 和 Scrapy 爬蟲框架部署

python scrapy 爬蟲框架 Scrapy 是采用Python 開發的一個快速可擴展的抓取WEB 站點內容的爬蟲框架。安裝依賴 yum install gcc gcc-c++ openssl mysql mysql-server libffi* libxml* libxml2 l

Scrapy 爬蟲框架入門案例詳解

tin mon setting 爬蟲框架 finished perror project 原因 create 歡迎大家關註騰訊雲技術社區-博客園官方主頁，我們將持續在博客園為大家推薦技術精品文章哦~ 作者：崔慶才 Scrapy入門本篇會通過介紹一

scrapy爬蟲框架

cnblogs logs spi down 方式 ges htm width sched downloader：負責下載html頁面 spider：負責爬取頁面內容，我們需要自己寫爬取規則 srapy提供了selector，獲取的方式有xpath，css，正則，extr

建立scrapy 專案框架

相關推薦