python筆記26（爬蟲進階）

阿新 • • 發佈：2018-11-09

一、scrapy框架簡介

1、什麼是Scrapy？

　　Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架，非常出名，非常強悍。所謂的框架就是一個已經被集成了各種功能（高效能非同步下載，佇列，分散式，解析，持久化等）的具有很強通用性的專案模板。對於框架的學習，重點是要學習其框架的特性、各個功能的用法即可。

2、安裝

　　Linux：

pip3 install scrapy

　　Windows：

a. pip3 install wheel

b. 下載twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted（下載被編譯過的資料）

c. 進入下載目錄，執行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl

d. pip3 install pywin32

e. pip3 install scrapy

備註：輸入scrapy檢查如果有對應的版本資訊則表示安裝完成。

3、基礎使用

　　1）建立專案：scrapy startproject 專案名稱

　　　　專案結構：

project_name/
   scrapy.cfg：
   project_name/
       __init__.py
       items.py
       pipelines.py
       settings.py
       spiders/
           __init__.py


scrapy.cfg   專案的主配置資訊。（真正爬蟲相關的配置資訊在settings.py檔案中）
items.py     設定資料儲存模板，用於結構化資料，如：Django的Model
pipelines    資料持久化處理
settings.py  配置檔案，如：遞迴的層數、併發數，延遲下載等
spiders      爬蟲目錄，如：建立檔案，編寫爬蟲解析規則

　　2）建立爬蟲應用程式：

　　　　　　cd project_name（進入專案目錄）

　　　　　　scrapy genspider 應用名稱爬取網頁的起始url （例如：scrapy genspider qiubai www.qiushibaike.com）

　　3）編寫爬蟲檔案:在步驟2執行完畢後，會在專案的spiders中生成一個應用名的py爬蟲檔案，檔案原始碼如下：

# -*- coding: utf-8 -*-
import scrapy


class QiubaiSpider(scrapy.Spider):
    #爬蟲檔案的名稱：可以指定某一個具體的爬蟲檔案
    name = 'qiubai' #應用名稱
    #允許爬取的域名（如果遇到非該域名的url則爬取不到資料）
    allowed_domains = ['https://www.qiushibaike.com/']
    #起始爬取的url：工程被執行後就可以獲取該列表中的url所對應的頁面
    start_urls = ['https://www.qiushibaike.com/']

     #訪問起始URL並獲取結果後的回撥函式，該函式的response引數就是向起始的url傳送請求後，獲取的響應物件.
    #response引數：就是對起始url發起請求後的響應物件
    #該函式返回值必須為可迭代物件或者NUll 
     def parse(self, response):
        print(response.text) #獲取字串型別的響應內容
        print(response.body)#獲取位元組型別的相應內容#

　　4）設定修改settings.py配置檔案相關配置

修改內容及其結果如下（偽裝請求載體身份）：
19行：USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' 

22行：ROBOTSTXT_OBEY = False  #可以忽略或者不遵守robots協議

　　5）執行爬蟲程式：scrapy crawl 應用名稱

　　不想列印日誌可以執行：scrapy crawl 應用名稱 --nolog

4、將糗百首頁中段子的內容和標題進行爬取

python筆記26（爬蟲進階）

一、scrapy框架簡介 1、什麼是Scrapy？　　Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架，非常出名，非常強悍。所謂的框架就是一個已經被集成了各種功能（高效能非同步下載，佇列，分散式，解析，持久化等）的具有很強通用性的專案模板。對於框架的學習，重點是要學習其框架的特性、各個

python筆記26（selenuim和phantonJs）

一、動態資料載入處理動態資料載入處理一.圖片懶載入什麼是圖片懶載入？案例分析：抓取站長素材http://sc.chinaz.com/中的圖片資料 #!/usr/bin/env python # -*- cod

Python爬蟲（入門+進階）學習筆記 2-6 Scrapy的Request和Response詳解

上節課我們學習了中介軟體，知道了怎麼通過中介軟體執行反反爬策略。本節課主要介紹Scrapy框架的request物件和response物件通常，Request物件在爬蟲程式中生成並傳遞到系統，直到它們到達下載程式，後者執行請求並返回一個Response物件，

Python爬蟲（入門+進階）學習筆記 1-1 什麼是爬蟲？

爬蟲的定義：網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。網頁的兩種載入方法同步載入：改變網址上的某些引數會導致網頁發生改變，例如：www.itjuzi.com/compa

Python爬蟲（入門+進階）學習筆記 1-6 瀏覽器抓包及headers設定（案例一：爬取知乎）

爬蟲的一般思路：抓取網頁、分析請求解析網頁、尋找資料儲存資料、多頁處理本節課主要講授如何通過谷歌瀏覽器開發者工具分析真實請求的方法。尋找真實請求的三個步驟分析：使用谷歌瀏覽器開發者工具分析網頁的請求測試：測試URL請求中每個引數的作用，找出控制翻頁等功能的引數重複：多次重複

Python爬蟲（入門+進階）學習筆記 1-5 使用pandas儲存豆瓣短評資料

1. Python資料分析的工具包numpy： (Numerical Python的簡稱)，是高效能科學計算和資料分析的基礎包pandas：基於Numpy建立的Python包，含有使資料分析工作變得更加簡單的高階資料結構和操作工具matplotlib：是一個用於創建出版質量圖

Python爬蟲（入門+進階）學習筆記 2-1 爬蟲工程化及Scrapy框架初窺

本章節將會系統地介紹如何通過Scrapy框架把爬蟲工程化。本節主要內容是：簡單介紹Python和爬蟲的關係，以及將要使用的Scrapy框架的工作流程。Python適合做爬蟲的原因語言本身簡單，適合敏捷開發有比較完善的工具鏈足夠靈活，以應對各種突然狀況爬蟲的知識體系前端相關知識：html，css，js；瀏覽器相

Python爬蟲（入門+進階）學習筆記 3-1 爬蟲工程師進階（七）：HTTP請求分析

Chrome瀏覽器相對於其他的瀏覽器而言，DevTools（開發者工具）非常強大。這節課將為大家介紹怎麼利用Chrome瀏覽器的開發者工具進行HTTP請求分析Chrome瀏覽器講解Chrome 開發者工具是一套內置於Google Chrome中的Web開發和除錯工具，可用來對

python學習之旅2（函式進階）

目錄　楔子　名稱空間和作用域　函式巢狀及作用域鏈　函式名的本質　閉包　本章小結楔子假如有一個函式，實現返回兩個數中的較大值： def my_max(x,y): m = x if x>y else y return mbigger

Python筆記五（collections模塊）

bsp 執行相關 collect 一個 python 代碼 script 如果一、什麽是模塊常見的場景：一個模塊就是一個包含了python定義和聲明的文件，文件名就是模塊名字加上.py的後綴。但其實import加載的模塊分為四個通用類別：　　

web全棧工程師（前端進階）學習線路圖

近兩年關於“前端工程師堅守前端還是主攻全棧開發”的問題，成為很多程式設計愛好者熱議的話題。全棧開發工程師的概念最早是由Facebook提出的。全棧的核心是指開發者能夠承擔包括前端、後端在內的所有功能開發任務。與傳統前端相比，web全棧開發工程師需要具備跨領域知識，甚至需要成為全才。作為勇於挑戰自我的前端，

人工智慧新手入門——高數篇（矩陣進階）

方陣行列式： CBDmax 行列式我們可以就是把他想象成一個函式，通過這個函式計算出來的結果，就是行列式的結果了。代數餘子式： CDBmax 這張圖給我們介紹了幾個概念： 1. 在一個n階矩陣中，元素所在的行和列刪除，剩下的結果就是的餘子式這裡記

redis入門指南一書總結下（redis進階）

redis事務 Redis中的事務是一組命令的集合，事務和命令一樣都是Redis的最小執行單位事務的原理為：先發送MULTI命令告訴redis接下來將會開啟一個事務，然後傳送一系列命令，最後傳送執行命令EXEC告訴redis執行這一系列命令。如下就

Mysql高手系列 - 第18篇：mysql流程控制語句詳解（高手進階）

Mysql系列的目標是：通過這個系列從入門到全面掌握一個高階開發所需要的全部技能。這是Mysql系列第18篇。環境：mysql5.7.25，cmd命令中進行演示。程式碼中被[]包含的表示可選，|符號分開的表示可選其一。上一篇儲存過程&自定義函式，對儲存過程和自定義函式做了一個簡單的介紹，但是如

python進階（爬蟲 BeautifulSoup用法）

操作演示檔案：檔名： webhtml.html <!DOCTYPE html> <html> <head> <title>漏斗圖</title> <script type="

python爬蟲進階（八）：分散式系統的高可用與高併發處理

一、應對高併發的基本思路 1、加快單機的速度，例如使用Redis，提高資料訪問頻率；增加CPU的核心數，增大記憶體； 2、增加伺服器的數量，利用叢集。二、分散式系統的設計 1、無狀態應用本身沒有狀態，狀態全部通過配置檔案或者叢集的服務端提供並與之同步。比如不同

python爬蟲進階（十）：日誌系統、守護執行緒以及驗證碼處理

一、日誌系統首先，關日誌系統的設計參考這篇部落格。 1、日誌系統基本用途（1）多執行緒情況下，debug除錯非常困難（2）錯誤出現可能有一些隨機性（3）效能分析（4）錯誤記錄與分析（5）執行狀態的實時監測 2、日誌系統設計（1）錯誤級別：Debug，I

python爬蟲進階（一）：靜態網頁爬取

一、文章說明本文是在學習過程中的筆記分享，開發環境是win7，Python3，編輯器pycharm，文章中若有錯誤歡迎指出、積極討論。另外，推薦一個比較好的爬蟲教程二、課程基礎 1、HTML和CSS 爬蟲和網頁內容處處打交道，首先要掌握一部分前端內容。參考教程： 2、

Python筆記day28（物件）|面向物件進階、hashlib

1，內容回顧 # 作業 ——> 反射 # str 和 repr # 類 object # repr str # str --> 類 str repr 父類object str repr # str --> 類 str 父類str 類rep

python之函數的進階（2-1）

加載 gif pre span 進行文件 chang ret 16px 動態參數：一,*args：args是元祖，它包含了所有的位置參數。 1,第一種形參中只含*args。 def func(*args): print(*args,type(args)) f

python筆記26（爬蟲進階）

一、scrapy框架簡介

相關推薦