scrapy框架簡介和基礎應用

阿新 • • 發佈：2019-01-14

一.什麼是Scrapy？

　　Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架，非常出名，非常強悍。所謂的框架就是一個已經被集成了各種功能（高效能非同步下載，佇列，分散式，解析，持久化等）的具有很強通用性的專案模板。對於框架的學習，重點是要學習其框架的特性、各個功能的用法即可。

二.安裝

　　Linux：

pip3 install scrapy

　　Windows：

a. pip3 install wheel

b. 下載twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

c. 進入下載目錄，執行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl

d. pip3 install pywin32

e.

pip3 install scrapy

三.基礎使用

　　1.建立專案：scrapy startproject 專案名稱

　　　　專案結構：

project_name/
   scrapy.cfg：
   project_name/
       __init__.py
       items.py
       pipelines.py
       settings.py
       spiders/
           __init__.py

scrapy.cfg   專案的主配置資訊。（真正爬蟲相關的配置資訊在settings.py檔案中）
items.py     設定資料儲存模板，用於結構化資料，如：Django的Model
pipelines    資料持久化處理
settings.py  配置檔案，如：遞迴的層數、併發數，延遲下載等
spiders      爬蟲目錄，如：建立檔案，編寫爬蟲解析規則

　2.建立爬蟲應用程式：

　　　　　　cd project_name（進入專案目錄）

　　　　　　scrapy genspider 應用名稱爬取網頁的起始url （例如：scrapy genspider qiubai www.qiushibaike.com）

　　3.編寫爬蟲檔案:在步驟2執行完畢後，會在專案的spiders中生成一個應用名的py爬蟲檔案，檔案原始碼如下：

# -*- coding: utf-8 -*-
import scrapy

class QiubaiSpider(scrapy.Spider):
    name = 'qiubai' #應用名稱
    #允許爬取的域名（如果遇到非該域名的url則爬取不到資料）
    allowed_domains = ['https://www.qiushibaike.com/']
    #起始爬取的url
    start_urls = ['https://www.qiushibaike.com/']

     #訪問起始URL並獲取結果後的回撥函式，該函式的response引數就是向起始的url傳送請求後，獲取的響應物件.該函式返回值必須為可迭代物件或者NUll 
     def parse(self, response):
        print(response.text) #獲取字串型別的響應內容
        print(response.body)#獲取位元組型別的相應內容

　　4.設定修改settings.py配置檔案相關配置:

修改內容及其結果如下：
19行：USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' #偽裝請求載體身份

22行：ROBOTSTXT_OBEY = False  #可以忽略或者不遵守robots協議

5.執行爬蟲程式：scrapy crawl 應用名稱

四.小試牛刀：將糗百首頁中段子的內容和標題進行爬取

# -*- coding: utf-8 -*-
import scrapy

class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    allowed_domains = ['https://www.qiushibaike.com/']
    start_urls = ['https://www.qiushibaike.com/']

    def parse(self, response):
        #xpath為response中的方法，可以將xpath表示式直接作用於該函式中
        odiv = response.xpath('//div[@id="content-left"]/div')
        content_list = [] #用於儲存解析到的資料
        for div in odiv:
            #xpath函式返回的為列表，列表中存放的資料為Selector型別的資料。我們解析到的內容被封裝在了Selector物件中，需要呼叫extract()函式將解析的內容從Selecor中取出。
            author = div.xpath('.//div[@class="author clearfix"]/a/h2/text()')[0].extract()
            content=div.xpath('.//div[@class="content"]/span/text()')[0].extract()

            #將解析到的內容封裝到字典中
            dic={
                '作者':author,
                '內容':content
            }
            #將資料儲存到content_list這個列表中
            content_list.append(dic)

        return content_list

執行爬蟲程式：


    scrapy crawl 爬蟲名稱 ：該種執行形式會顯示執行的日誌資訊
    scrapy crawl 爬蟲名稱 --nolog：該種執行形式不會顯示執行的日誌資訊

爬蟲-scrapy框架簡介和基礎應用

一.什麼是Scrapy？　　Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架，非常出名，非常強悍。所謂的框架就是一個已經被集成了各種功能（高效能非同步下載，佇列，分散式，解析，持久化等）的具有很強通用性的專案模板。對於框架的學習，重點是要學習其框架的特性、各個功能的用法即可。二.安裝

（六--一）scrapy框架簡介和基礎應用

一什麼是scrapy框架官方解釋 Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中。其最初是為了頁面抓取 (更確切來說, 網路抓取 )所設計的，也可以應用在獲取API所返回的資料(例如 Amazon

10.scrapy框架簡介和基礎應用

今日概要 scrapy框架介紹環境安裝基礎使用今日詳情一.什麼是Scrapy？　　Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架，非常出名，非常強悍。所謂的框架就是一個已經被集成了各種功能（高效能非同

scrapy框架簡介和基礎應用

python爬蟲----scrapy框架簡介和基礎應用

就是 all 安裝持久化數據 whl 執行編寫通用一、什麽是scrapy？　　scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架，非常出名，非常強悍。所謂的框架就是一個已經被集成了各種功能（高性能異步下載，隊列，分布式，解析，持久化等）的具有很

Shiro框架從入門到實戰程式碼（一）Shiro簡介和基礎應用

一：Shiro是一個功能強大且易於使用的Java安全框架，提供了認證，授權，加密和會話管理。 Authentication:身份認證/登入，驗證使用者是不是擁有相應的身份 Authorization：授權，即許可權驗證，驗證某個已認證的使用者是否擁有某個許可

scrapy框架簡介和配置使用

scrapy框架的簡介和基礎使用概念：為了爬取網站資料而編寫的一款應用框架。框架其實就是一個集成了相應的功能且具有很強通用性的專案模板。安裝： 1. linux mac os:pip install scrapy 直接pip就能安裝完成 2. win:安裝比較麻煩，按下面步驟

Scrapy基礎第三節：Scrapy框架結構和元件介紹

前置知識：掌握Python的基礎知識對爬蟲基礎有一定了解說明：執行環境 Win10，Python3 64位目錄: 1 Scrapy框架組成結構 2 Scapry資料流程 Scrap

linux nftables簡介和基礎操作

語法用戶態新規數據包 name chain 地址 lac 版本一、什麽是nftables？ nftables 是新的數據包分類框架，新的linux防火墻管理程序，旨在替代現存的 {ip,ip6,arp,eb}_tables。簡而言之：它在 Linux 內核版本高於

scrapy爬蟲框架（一）：scrapy框架簡介

一、安裝scrapy框架 #開啟命令列輸入如下命令： pip install scrapy 二、建立一個scrapy專案安裝完成後，python會自動將 scrapy命令新增到環境變數中去，這時我們就可以使用 scrapy命令來建立我們的第一個 scrapy專案了。

Mybatis框架簡介與簡單應用

框架簡介 Mybatis原名是ibatis,是apache的開源專案,是一個持久層的框架,與資料庫進行互動,將資料持久化到關係型資料庫中,目前託管在 github中; 原理簡介 java中通過JDBC對資料庫進行操作,JDB

Python學習-Python簡介和基礎入門

1.Python簡介

Diamond簡介和快速應用

source fromhttp://blog.csdn.net/chabale/article/details/8900500 一、概況 diamond是淘寶內部使用的一個管理持久配置的系統,它的特點是簡單、可靠、易用,目前淘寶內部絕大多數系統的配置,由diamond來進行統一管理。 diam

python爬蟲：scrapy框架xpath和css選擇器語法

Xpath基本語法一、常用的路徑表示式：表示式描述例項 nodename 選取nodename節點的所有子節點 //div / 從根節點選取

ITester介面測試框架 (二) : 框架簡介和流程圖

ITester框架簡介上一篇的blog主要講解了介面測試的基礎知識，這一章將詳細介紹介面測試框架圖和流程圖。 ITester是處理API介面測試的輕量級自動化測試框架，java語言實現。主要是面向service介面，諸如：HTTP，SOAP，JSON-RP

Django框架簡介和工程搭建

Django框架一、Django介紹二、Django工程搭建回到頂部一、Django介紹　　1.簡介　　　　 Django的主要目的是簡便、快速的開發資料庫驅動的網站。它強調程式碼複用，多個元件可以很方便的以"外掛"形式服務於整個框架，Djan

LINQ學習心得分享----（一）LINQ簡介和基礎學習

第二個問題，LINQ主要解決什麼問題？也就是LINQ的設計目的。我們知道在LINQ之前，面向物件和資料訪問這兩個領域是相互分裂的，程式語言中的資料型別，和資料庫中的資料型別也有一些出入，同時SQL和XML都有自己的查詢語言而物件卻沒有自己的查詢語言，這些在很大程度上限制開發的效率，而LINQ的設計理

Scrapy 框架簡介抓取一點資訊

什麼是scrapy ? 1 Scrapy是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛 2 Scrapy 使用了 Twisted['twɪstɪd](其主要對手是Tornado)非同步網路框架來處理網路通訊3 Scrapy非常的靈

Python學習之路【第一篇】-Python簡介和基礎入門

1.Python簡介 1.1 Python是什麼相信混跡IT界的很多朋友都知道，Python是近年來最火的一個熱點，沒有之一。從性質上來講它和我們熟知的C、java、php等沒有什麼本質的區別，也是一種開發語言，而且已經進階到主

Scrapy框架-Spider和CrawlSpider的區別

sta don .com num 鏈接 links pan src () 目錄 1.目標 2.方法1：通過Spider爬取 3. 通過CrawlSpider爬取

scrapy框架簡介和基礎應用

相關推薦