這是簡易資料分析系列的第 7 篇文章。

在第 4 篇文章裡，我講解了如何抓取單個網頁裡的單類資訊；

在第 5 篇文章裡，我講解了如何抓取多個網頁裡的單類資訊；

今天我們要講的是，如何抓取多個網頁裡的多類資訊。

這次的抓取是在簡易資料分析 05的基礎上進行的，所以我們一開始就解決了抓取多個網頁的問題，下面全力解決如何抓取多類資訊就可以了。

我們在實操前先把邏輯理清：

上幾篇只抓取了一類元素：電影名字。這期我們要抓取多類元素：排名，電影名，評分和一句話影評。

根據 Web Scraper 的特性，想抓取多類資料，首先要抓取包裹多類資料的容器，然後再選擇容器裡的資料，這樣才能正確的抓取。我畫一張圖演示一下：

我們首先要抓取多個 container（容器），再抓取 container 裡的元素：編號、電影名、評分和一句話影評，當爬蟲執行完後，我們就會成功抓取資料。

概念上搞清楚了，我們就可以講實際操作了。

如果對以下的操作有疑問，可以看簡易資料分析 04 的內容，那篇文章詳細圖解了如何用 Web Scraper 選擇元素的操作

1.點選 Stiemaps，在新的面板裡點選 ID 為 top250 的這列資料

2.刪除掉舊的 selector，點選 Add new selector 增加一個新的 selector

3.在新的 selector 內，注意把 Type 型別改為 Element（元素），因為在 Web Scraper 裡，只有元素型別才能包含多個內容。

我們勾選的元素區域如下圖所示，確認無誤後點擊 Save selector 按鈕，就會回退到上一個操作面板。

在新的面板裡，點選剛剛建立的 selector 那行資料：

點選後我們就會進入一個新的面板，根據導航我們可知在 container 內部。

在新的面板裡，我們點選 Add new selector，新建一個 selector，用來抓取電影名，型別為 Text，值得注意的是，因為我們是在 container 內選擇文字的，一個 container 內只有一個電影名，所以多選不要勾選，要不然會抓取失敗。

選擇電影名的時候你會發現 container 黃色高亮，我們就在黃色的區域裡選擇電影名就好了。

點選 Save selector 儲存選擇器後，我們再建立三個選擇器，分別選擇編號、評分和一句話影評，因為操作和上面一模一樣，我這裡就省略講解了。

排名編號：

評分：

一句話影評：

我們可以在面板裡觀察我們選擇的多個元素，一共有四個元素：分別為 name、number、score 和 review，型別都是 Text，不需要多選，父選擇器都是 container。

我們可以點選點選 Stiemap top250 下的 selector graph，檢視我們爬蟲選擇元素的層級關係，確認正確後我們再點選 Stiemap top250 下的 Selectors，回到選擇器展示面板。

下圖就是我們這次爬蟲的層級關係，是不是和我們之前理論分析的一樣？

確認選擇無誤後，我們就可以抓取資料了，操作在簡易資料分析 04 、簡易資料分析 05 裡都說過了，忘記的朋友可以看舊文回顧一下。下圖是我抓取的資料：

還是和以前一樣，資料是亂序的，不過這個不要緊，因為排序屬於資料清洗的內容了，我們現在的專題是資料抓取。先把相關的知識點講完，再攻克下一個知識點，才是更合理的學習方式。

今天的內容其實還是比較多的，大家可以先消化一下，下一篇我們講講，如何抓取點選「載入更多」載入資料的網頁內容。

sitemap 分享：

這次的 sitemap 就分享給大家，大家可以匯入到 Web Scraper 中進行實驗，具體方法可以看我上一篇教程文章。

Sitemap：

{"_id":"top250","startUrl":["https://movie.douban.com/top250?start=[0-250:25]&filter="],"selectors":[{"id":"container","type":"SelectorElement","parentSelectors":["_root"],"selector":".grid_view li","multiple":true,"delay":0},{"id":"name","type":"SelectorText","parentSelectors":["container"],"selector":"span.title:nth-of-type(1)","multiple":false,"regex":"","delay":0},{"id":"number","type":"SelectorText","parentSelectors":["container"],"selector":"em","multiple":false,"regex":"","delay":0},{"id":"score","type":"SelectorText","parentSelectors":["container"],"selector":"span.rating_num","multiple":false,"regex":"","delay":0},{"id":"review","type":"SelectorText","parentSelectors":["container"],"selector":"span.inq","multiple":false,"regex":"","delay":0}]}

簡易資料分析 07 | Web Scraper 抓取多條內容

sitemap 分享：

推薦閱讀：

簡易資料分析 07 | Web Scraper 抓取多條內容

簡易資料分析 11 | Web Scraper 抓取表格資料

簡易資料分析 04 | Web Scraper 初嘗--抓取豆瓣高分電影

簡易資料分析 09 | Web Scraper 自動控制抓取數量 & Web Scraper 父子選擇器

簡易資料分析 10 | Web Scraper 翻頁——抓取「滾動載入」型別網頁

簡易資料分析 12 | Web Scraper 翻頁——抓取分頁器翻頁的網頁

簡易資料分析 13 | Web Scraper 高階用法——抓取二級頁面

簡易資料分析 02 | Web Scraper 的下載與安裝

簡易資料分析 08 | Web Scraper 翻頁——點選「更多按鈕」翻頁

web scraper 抓取資料並做簡單資料分析

Web Scraper 高階用法——抓取屬性資訊 | 簡易資料分析 16

Web Scraper 翻頁——利用 Link 選擇器翻頁 | 簡易資料分析 14

Web Scraper 高階用法——利用正則表示式篩選文字資訊 | 簡易資料分析 17

分析Ajax請求並抓取今日頭條街拍美圖

Web站點抓取工具webhttrack

cgmodel簡易資料分析

資料分析07

python資料分析07--matplotlib繪圖和視覺化

Python資料抓取——多執行緒，非同步

利用charles 抓取ios app的https資料包-----軟體配置和抓取步驟

簡易資料分析 07 | Web Scraper 抓取多條內容

sitemap 分享：

推薦閱讀：

相關推薦