1. 程式人生 > >一個令人著迷的爬蟲框架——Scrapy框架!

一個令人著迷的爬蟲框架——Scrapy框架!

在平常的知識傳播中,我經常遇到許多的小夥伴說,Python爬蟲還厲害喔,我想學,或者是我已經初學了Python,但是爬蟲還是沒有接觸,能教教我嗎?看到小夥伴有如此熱情,我決定來帶大家探討探討Python爬蟲!

 

在探討爬蟲之前,我們首先來帶大家瞭解下 Scrapy 框架,我們先來解答三個問題:什麼是 Scrapy 框架呢?它有什麼作用呢?為什麼需要使用它?(這個有基礎的想必解答不難)

如果大家在學習Python的路上,或者打算學習Python需要學習資料,可以私信小編髮送1314,小編將免費贈送大家學習資料喔!

Scrapy 是 Python 開發的一個快速、高層次的螢幕抓取和web抓取框架,用於抓取 web 站點並從頁面中提取結構化的資料。

Scrapy 用途廣泛,可以用於資料探勘、監測和自動化測試。

為什麼需要使用它?Scrapy 是一個寫好的框架,不用重複造輪子,scapy 底層是非同步框架 twisted ,吞吐量高,併發是最大優勢。

Scrapy 安裝

我電腦上同時裝了 py2 和 py3,在 py3 環境裡安裝 Scrapy,使用以下命令。

 

如果你的電腦只安裝了一個 python 版本,直接使用 pip install xxx 即可。

如果上面方法安裝失敗的話就分下面兩步驟安裝:

1 首先安裝 Twisted ,使用以下命令

 

命令安裝報錯的話就去對應網站選擇對應版本下載 whl,我的 python3.6,系統是 64 位,所以我下載的是 Twisted‑18.7.0‑cp36‑cp36m‑win_amd64.whl。下載後使用 pip 命令安裝 whl 檔案。

2 安裝 scrapy 框架

 

建立爬蟲專案

建立儲存 scrapy 資料夾 scrapypy3,cmd 進入到路徑,用 scrapy startproject 命令新建專案。(溫馨提示:程式碼顯示不全的話向右輕輕滑動即可檢視全部程式碼)

 

Scrapy 專案目錄結構

新建的爬蟲專案檔案有以下部分組成,將整個檔案在編輯器 Pycharm 中開啟看得很明顯,檔案後面我做了中文解釋。

 

 

建立專案引數

剛才用 scrapy startproject 建立了爬蟲專案,建立的時候我們也可以加入一些引數,具體有哪些引數呢?我們可以在命令列通過 scrapy startproject -h檢視,以下常見的命令給出了相應的中文註釋。(溫馨提示:程式碼顯示不全的話向右輕輕滑動即可檢視全部程式碼)

 

常用工具命令

Scrapy 中,工具命令分為兩種,一種為全域性命令,一種為專案命令。

全域性命令

在不進入Scrapy 爬蟲專案所在目錄的情況下,執行 scrapy -h,在commands下會出現所有的全域性命令。

 

專案命令

首先進入一個已經建立的 Scrapy 爬蟲專案,執行 scrapy -h 顯示專案中可用命令。在展示出來的命令中,包括了上面講到的全域性命令。全域性命令既可以在非 Scrapy 爬蟲專案資料夾中使用,同時也可以在 Scrapy 爬蟲專案資料夾中使用,而 Scrapy 專案命令一般只能在 Scrapy 爬蟲專案資料夾中使用。去掉全域性命令,剩下的就是Scrapy專案命令。

所以,Scrapy 的專案命令主要有:bench、check、crawl、edit、genspider、list、parse。

 

這篇文章給大家講了下 Scrapy 框架的安裝和常用的命令,這只是初步瞭解,之後會在實戰中使用,專案實戰才是我們的最終目的。未完待續。。。

寫在最後:

如果大家在學習Python的路上,或者打算學習Python需要學習資料,可以加群571799375,群裡學習資料免費贈送大家學習資料喔!

本文來自網路,如有侵權,請聯絡小編刪除!