爬蟲小工具合集|不會程式設計也能爬資料

阿新 • • 發佈：2019-01-08

當前的主流爬蟲手段是用Python程式設計，Python的強大毋庸置疑，但初學者學習Python還是需要一兩個月時間的。有沒有一些更簡單的爬取資料方法呢？答案是有的，DataCastle為你準備瞭如下小工具，對於每個小工具你只需要花十幾分鍾時間，跟著我的步驟走一遍就可以掌握它啦~

一、Microsoft Excel

首先教大家一個用Excel爬取資料的方法，這裡用的Microsoft Excel 2013版本，下面手把手開始教學~

（1）新建Excel，開啟它，如下圖所示

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

（2）點選“資料”——“自網站”

0?wx_fmt=jpeg

（3）在彈出的對話方塊中輸入目標網址，這裡以全國實時空氣質量網站（http://www.pm25.in/rank）為例，點選轉到，再匯入

0?wx_fmt=jpeg

選擇匯入位置，確定

0?wx_fmt=jpeg

（4）結果如下圖所示，怎麼樣，是不是很贊？

0?wx_fmt=jpeg

（5）如果要實時更新資料，可以在“資料”——“全部更新”——“連線屬性”中進行設定，輸入更新頻率即可

0?wx_fmt=jpeg

二、Google Sheet

使用Google Sheet爬取資料前，要保證三點：使用Chrome瀏覽器、擁有Google賬號、電腦已翻牆。如果這三個條件具備了的話，下面我們就開始吧~

（1）開啟Google Sheet網站：http://www.google.cn/sheets/about/

0?wx_fmt=jpeg

（2）在首頁上點選“轉到Google表格”，然後登入自己的賬號，可以看到如下介面，再點選“+”建立新的表格

0?wx_fmt=jpeg

新建的表格如下：

0?wx_fmt=jpeg

（3）開啟要爬取的目標網站，一個全國實時空氣質量網站http://www.pm25.in/rank，目標網站上的表格結構如下圖所示

0?wx_fmt=jpeg

（4）回到Google sheet頁面，使用函式=IMPORTHTML(網址, 查詢, 索引)，“網址”就是要爬取資料的目標網站，“查詢”中輸入“list”或“table”，這個取決於資料的具體結構型別，“索引”填阿拉伯數字，從1開始，對應著網站中定義的哪一份表格或列表

對於我們要爬取的網站，我們在Google sheet的A1單元格中輸入函式=IMPORTHTML("http://www.pm25.in/rank","table",1)，回車後就爬得資料啦

0?wx_fmt=jpeg

（5）將爬取好的表格存到本地

0?wx_fmt=jpeg

是不是感覺超級簡單？

三、you-get

這是一個程式設計師基於python 3開發的專案，已經在github上面開源，支援64個網站，包括優酷、土豆、愛奇藝、b站、酷狗音樂、蝦米……總之你能想到的網站都有! 還有一個黑科技的地方，即使是名單上沒有的網站，當你輸入連結，程式也會猜測你想要下載什麼，然後幫你下載。當然you-get要在python3環境下進行安裝，用pip安裝好後，在終端輸入“you get＋你想下載資源的連結”就可以等著收藏資源了。

這裡給一個you-get的中文使用說明（http://dwz.cn/4rb53l），按照說明上寫的按步驟操作就可以啦。

如果你想學更高階的Python爬蟲，DataCastle為你準備了一套高效的學習路徑。

0?wx_fmt=jpeg

如何在短時間內入門爬蟲，並獲得爬取大量資料的能力？

DataCastle學院課程《Python爬蟲（入門+進階）》從具體的案例著手，通過實際操作，學習具體的知識點。

0?wx_fmt=jpeg

課程中工程化爬蟲及分散式爬蟲技術，讓你有獲取大規模資料的可能。此外，你還將瞭解資料庫（Mongodb）、pandas的基本知識，幫你儲存爬取的資料，同時可以對資料進行管理和清洗，便於後續分析處理。

來源：DataCastle資料城堡

近期精彩活動（直接點選檢視）：

END

投稿和反饋請發郵件至[email protected]。轉載大資料公眾號文章，請向原文作者申請授權，否則產生的任何版權糾紛與大資料無關。

大資料

為大家提供與大資料相關的最新技術和資訊。

長按指紋 > 識別圖中二維碼 > 新增關注

近期精彩文章（直接點選檢視）：

更多精彩文章，請在公眾號後臺點選“歷史文章”檢視，謝謝。

爬蟲小工具合集|不會程式設計也能爬資料

爬蟲小工具合集|不會程式設計也能爬資料

《程式設計珠璣》程式碼之路14：兩個不會演算法也能把效率提升4倍的小套路

Windows Sysinternals 微軟官方免費的極品實用綠色小工具合集，絕對值得你收藏！...

即速應用——不會程式碼也能做App

AppInventor讓不會程式設計的小白也能製作app

Vue-小demo、小效果合集（更新中...）

springboot(x)——小技能合集

每次看serverless，我恨我不會程式設計

為什麼大多數人看完Python基礎仍然不會程式設計呢？

其實我不會程式設計，只會臉滾鍵盤

請不要關注我，我是小白啥都不會

Python 滲透測試工具合集

常用前端開發工具合集

雲端計算時代，不會程式設計的運維必將失業？

【FreeBuf年終策劃】2017年最好用的Android滲透工具合集

乾貨｜20個前端開發實用工具合集

spring註解方式，使用jax-ws配置webservice，適合小白。看不會你打死我！

印度被眾人稱為軟體開發大國，卻有95% IT 工程師不會程式設計？！

我不會程式設計，但不是完全不會，我會一點點

python爬蟲技術細節合集

爬蟲小工具合集|不會程式設計也能爬資料

相關推薦