Scrapy爬取Ajax（非同步載入）網頁例項——簡書付費連載

阿新 • • 發佈：2018-11-24

這兩天學習了Scrapy爬蟲框架的基本使用，練習的例子爬取的都是傳統的直接載入完網頁的內容，就想試試爬取用Ajax技術載入的網頁。

這裡以簡書裡的優選連載網頁為例分享一下我的爬取過程。

網址為：

https://www.jianshu.com/mobile/books?category_id=284

一、分析網頁

進入之後，滑鼠下拉發現內容會不斷更新，網址資訊也沒有發生變化，於是就可以判斷這個網頁使用了非同步載入技術。

首先明確爬取的內容，本次我爬取的是作品名稱、照片、作者、閱讀量。然後將照片下載儲存在資料夾中，然後將全部內容生成csv資料夾儲存。

檢視網頁原始碼發現程式碼裡只有已載入的作品的內容，編寫爬蟲程式碼發現爬取不到收錄的資訊。

進入Network選項，勾選XHR選項，通過下滑網頁發現Network選項卡會載入檔案，如下圖：

注：這裡我用的是火狐瀏覽器

點選其中一個載入檔案，可以在訊息頭看到請求網址：

繼續下滑，發現Headers部分請求的URL只是page後面的數字在改變，通過改變數字，我們就能在後面呼叫回撥函式爬取多個網頁了。

二、Scrapy爬取

1.在命令提示符輸入：

cd Desktop  #進入桌面
scrapy startproject jian   #生成名為jian的Scrapy資料夾

cd jian
scrapy genspider lianzai jianshu.com   #爬蟲名為lianzai

這裡我用的是pycharm，開啟資料夾。

2.在items.py定義爬蟲欄位

1 class JianItem(scrapy.Item):
2     # define the fields for your item here like:
3     # name = scrapy.Field()
4     book_name=scrapy.Field()   
5     img=scrapy.Field()
6     author=scrapy.Field()
7     readers=scrapy.Field()
8     pass

3.在lianzai.py編寫爬蟲程式碼，爬取資料

 1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 from jian.items import JianItem
 4 import json
 5 import requests
 6 
 7 class LianzaiSpider(scrapy.Spider):
 8     name = 'lianzai'
 9     allowed_domains = ['jianshu.com']
10     start_urls = ['https://www.jianshu.com/asimov/books?page=1&count=12&category_id=284']      #第一頁的url
11     def parse(self, response):
12         data=json.loads(response.body)　　#str轉為json物件
13         try:
14             for i in range(0, 12):
15                 item = JianItem()
16                 img=data['books'][i]['image_url']
17                 book_name=data['books'][i]['name']
18                 author=data['books'][i]['user']['nickname']
19                 readers=data['books'][i]['views_count']
20 
21                 item['img']=img
22                 item['book_name']=book_name
23                 item['author']=author
24                 item['readers']=readers
25                 yield item　　#返回資料
26         except IndexError:
27             pass
28         urls=['https://www.jianshu.com/asimov/books?page={}&count=12&category_id=284'.format(str(i))for i in range(2, 11)]  #
29         for url in urls:
30             yield scrapy.Request(url,callback=self.parse)　　#回撥函式

這裡特別要注意的是要爬取內容的所在位置。

上圖中左圖可以看出爬取的內容的位置在response裡的['books']裡面，且一個網頁有12個作品，因此上面迴圈出為（0,12）。

開啟後如上右圖，可以看到我們要爬取的作品名、圖片地址、作者、閱讀量都在裡面，爬取就相對容易了。

4.在setting.py設定爬蟲配置

1 USER_AGENT='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.96 Safari/537.36'　　#請求頭
2 DOWNLOAD_DELAY=0.5　　#延時0.5
3 FEED_URI='file:C:/Users/lenovo/Desktop/jianshulianzai.csv'　　#在桌面生成CSV檔案　
4 FEED_FORMAT='csv'　　#存入
5 ITEM_PIPELINES={'jian.pipelines.JianPipeline':300}

5.在pipelines.py處理照片資料

 1 # -*- coding: utf-8 -*-
 2 
 3 # Define your item pipelines here
 4 #
 5 # Don't forget to add your pipeline to the ITEM_PIPELINES setting
 6 # See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
 7 import os
 8 import urllib.request
 9 
10 class JianPipeline(object):
11     def process_item(self, item, spider):
12         headers = {
13             'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.96 Safari/537.36'
14         }
15         try:
16             if item['img'] != None:
17                 req=urllib.request.Request(url=item['img'],headers=headers)
18                 res=urllib.request.urlopen(req)
19                 file_name = os.path.join(r'C:\Users\lenovo\Desktop\my_pic', item['book_name'] + '.jpg')
20                 with open(file_name,'wb')as f:
21                     f.write(res.read())
22         except urllib.request.URLError:
23             pass
24         return item

6.全部儲存後，在命令列終端輸入：

scrapy crawl lianzai

就將結果爬取下來並儲存啦。

三、結果

.csv檔案的內容：

下載的照片：

初入爬蟲，還有很多不足需要改正，還有很多知識需要學習，希望有疑問或建議的朋友多多指正或留言。謝謝。

Scrapy爬取Ajax（非同步載入）網頁例項——簡書付費連載

這兩天學習了Scrapy爬蟲框架的基本使用，練習的例子爬取的都是傳統的直接載入完網頁的內容，就想試試爬取用Ajax技術載入的網頁。這裡以簡書裡的優選連載網頁為例分享一下我的爬取過程。網址為： https://www.jianshu.com/mobile/books?category_id=28

通過ajax和json進行表單驗證（非同步載入）

function add() { var name = $("#name").val(); $.ajax({ type: "POST", url: "api/addAction",

通過ajax實現對某個div的整體重新整理替換（非同步載入）

首先吐槽下公司的框架，grid的寬度可能是根據螢幕長度自動適應，但是遇到了一個問題，隱藏的grid.show()時，寬度變為最小寬度，未解決該問題，不使用toggle的方法，直接通過ajax非同步載入該DiV,同時該方法也解決了grid的表頭不確定的問題整體非同步載入

js筆記（非同步載入）

117.json 1.JSON是一種傳輸資料的格式（以物件為樣板，本質上就是物件，但用途有區別，物件就是本地用的，json是用來傳輸的）（1）XML和HTML：XML和HTML都是指令碼語言，都是由標籤標籤的形式的，XML可以自定義標籤，HTML不行（2）過去以XML這種

zTree簡單使用（非同步載入）

最近使用zTree進行目錄的展示，使用了基本的用法，做下記錄可以直接去zTree的官網上進行檢視相關的使用說明，不過第一次沒太明白，多看幾篇介紹基本就可以解決了 http://www.treejs.cn/v3/main.php zTree的官網 API點

爬蟲學習之17：爬取拉勾網網招聘資訊（非同步載入+Cookie模擬登陸）

很多網站需要通過提交表單來進行登陸或相應的操作，可以用requests庫的POST方法，通過觀測表單原始碼和逆向工程來填寫表單獲取網頁資訊。本程式碼以獲取拉勾網Python相關招聘職位為例作為練習。開啟拉鉤網，F12進入瀏覽器開發者工具，可以發現網站使用了A

爬蟲學習之18：使用selenium和chrome-headerless爬取淘寶網商品資訊（非同步載入網頁）

登入淘寶網，使用F12鍵觀察網頁結構，會發現淘寶網也是非同步載入網站。有時候通過逆向工程區爬取這類網站也不容易。這裡使用selenium和chrome-headerless來爬取。網上有結合selenium和PlantomJS來爬取的，但是最新版的Seleniu

Python爬蟲從入門到放棄（十八）之 Scrapy爬取所有知乎用戶信息(上)

user 說過 -c convert 方式 bsp 配置文件 https 爬蟲爬取的思路首先我們應該找到一個賬號，這個賬號被關註的人和關註的人都相對比較多的，就是下圖中金字塔頂端的人，然後通過爬取這個賬號的信息後，再爬取他關註的人和被關註的人的賬號信息，然後爬取被關註人

python scrapy爬取皇冠體育源碼下載網站數據二（scrapy使用詳細介紹）

時間源碼保存文件 i+1 zh-cn china flat url def 1、scrapy工程創建皇冠體育源碼下載論壇：haozbbs.com Q1446595067 在命令行輸入如下命令，創建一個使用scrapy框架的工程 scrapy startproject s

scrapy爬取京東商城某一類商品的資訊和評論（二）

2、任務二：爬取商品評論資訊如果不需要爬取使用者的地域資訊，那麼用這個網址爬就好： http://club.jd.com/review/10321370917-1-1-0.html 其中10321370917是商品的ID，評論的第一頁就是 -1-1-0.htm

scrapy爬取京東商城某一類商品的資訊和評論（一）

剛寫完京東爬蟲，趁著記憶還深刻，寫點總結吧。一、前提預設已用scrapy爬取過網站，有爬蟲基礎，有爬蟲環境二、以爬取電子煙為例 1、任務一：爬取商品資訊在搜尋框裡面直接搜尋電子煙，搜出來的介面，你會發現它是動態載入的。即一開始原始碼裡面只

利用scrapy爬取需要登入的網站的資料（包含驗證碼的處理）

利用scrapy爬取需要登入的網站的資料（包含驗證碼的處理）–以爬取豆瓣網資料為例 1、在cmd命令列中輸入 scrapy startproject douban，建立scrapy爬蟲專案 2、在cmd命令列中調整到douban專案資料夾下輸入 scrapy genspider -t

Scrapy爬取前程無憂（51job）相關職位資訊

Scrapy爬取前程無憂（51job）python職位資訊開始是想做資料分析的，上網上找教程，看到相關部落格我就跟著做，但是沒資料就只能開始自己爬唄。順便給51job的工作人員提提建議，我爬的時候Scrapy訪問量開到128，relay僅有兩秒，還以為會封ip。沒想到只是改請求頭就

文字分類（二）：scrapy爬取網易新聞

文字分類的第一項應該就是獲取文字了吧。在木有弄懂scrapy的情況下寫的，純應用，或許後續會補上scrapy的原理。首先說一下我的環境：ubuntu14.10 scrapy安裝指南（肯定官網的最權威了）：[傳送門](http://scrapy-chs.rea

資料視覺化三步走（一）：資料採集與儲存，利用python爬蟲框架scrapy爬取網路資料並存儲

前言最近在研究python爬蟲，突然想寫部落格了，那就寫點東西吧。給自己定個小目標，做一個完整的簡單的資料視覺化的小專案，把整個相關技術鏈串聯起來，目的就是為了能夠對這塊有個系統的認識，具體設計思路如下： 1. 利用python爬蟲框架scr

scrapy爬取愛上租網站的房源資訊（一）

爬取的頁面如下：愛上租的租房頁面需要爬取該頁面下所有房間的基本資訊 scrapy框架的安裝和使用教程參考以下連結 http://www.scrapyd.cn/doc/178.html 首先在spiders目錄下新建一個house_spider.py，將上面爬

scrapy爬取相似頁面及回撥爬取問題（以慕課網為例）

以爬取慕課網資料為例慕課網的資料很簡單，就是通過get方式獲取的連線地址為 https://www.imooc.com/course/list?page=2 根據page引數來分頁這個時

python scrapy爬取全部豆瓣電影（可能是54萬資料）

（一）爬取環境 win10 python3 scrapy （二）豆瓣電影參考標準主要參考來自神箭手的雲市場（三）爬取步驟主要爬取的欄位有：標題，得分，

Scrapy爬取網易雲音樂和評論（一、思路分析）

目錄：前提： scrapy這個框架很多人用過，網上教程也很多，但大多就是爬爬小說這種比較簡單且有規律的，網易雲音樂也有很多人寫過，也有API，不過大多是爬取了熱門歌曲，或是從歌單下手，但是考慮到歌單會有很多重複的。當然，從歌手頁的話，如果

Ajax中的async的取值（非同步和同步）

之前去面試廣州科騰公司時，面試官問了一個問題—ajax的async取值的理解。那時候的我可以說是個死菜鳥（現在可能是個半死不活的菜鳥），只是理解取值的字面意思，最後還要面試官給我解釋。雖然面試肯定是掛了，但是至少面試官教了我點東西，也不虧了對吧。言歸正傳了。

Scrapy爬取Ajax（非同步載入）網頁例項——簡書付費連載

相關推薦