爬蟲小工具合集|不會程式設計也能爬資料
當前的主流爬蟲手段是用Python程式設計,Python的強大毋庸置疑,但初學者學習Python還是需要一兩個月時間的。有沒有一些更簡單的爬取資料方法呢?答案是有的,DataCastle為你準備瞭如下小工具,對於每個小工具你只需要花十幾分鍾時間,跟著我的步驟走一遍就可以掌握它啦~
一、Microsoft Excel
首先教大家一個用Excel爬取資料的方法,這裡用的Microsoft Excel 2013版本,下面手把手開始教學~
(1)新建Excel,開啟它,如下圖所示
(2)點選“資料”——“自網站”
(3)在彈出的對話方塊中輸入目標網址,這裡以全國實時空氣質量網站(http://www.pm25.in/rank)為例,點選轉到,再匯入
選擇匯入位置,確定
(4)結果如下圖所示,怎麼樣,是不是很贊?
(5)如果要實時更新資料,可以在“資料”——“全部更新”——“連線屬性”中進行設定,輸入更新頻率即可
二、Google Sheet
使用Google Sheet爬取資料前,要保證三點:使用Chrome瀏覽器、擁有Google賬號、電腦已翻牆。如果這三個條件具備了的話,下面我們就開始吧~
(1)開啟Google Sheet網站:http://www.google.cn/sheets/about/
(2)在首頁上點選“轉到Google表格”,然後登入自己的賬號,可以看到如下介面,再點選“+”建立新的表格
新建的表格如下:
(3)開啟要爬取的目標網站,一個全國實時空氣質量網站http://www.pm25.in/rank,目標網站上的表格結構如下圖所示
(4)回到Google sheet頁面,使用函式=IMPORTHTML(網址, 查詢, 索引),“網址”就是要爬取資料的目標網站,“查詢”中輸入“list”或“table”,這個取決於資料的具體結構型別,“索引”填阿拉伯數字,從1開始,對應著網站中定義的哪一份表格或列表
對於我們要爬取的網站,我們在Google sheet的A1單元格中輸入函式=IMPORTHTML("http://www.pm25.in/rank","table",1),回車後就爬得資料啦
(5)將爬取好的表格存到本地
是不是感覺超級簡單?
三、you-get
這是一個程式設計師基於python 3開發的專案,已經在github上面開源,支援64個網站,包括優酷、土豆、愛奇藝、b站、酷狗音樂、蝦米……總之你能想到的網站都有! 還有一個黑科技的地方,即使是名單上沒有的網站,當你輸入連結,程式也會猜測你想要下載什麼,然後幫你下載。當然you-get要在python3環境下進行安裝,用pip安裝好後,在終端輸入“you get+你想下載資源的連結”就可以等著收藏資源了。
這裡給一個you-get的中文使用說明(http://dwz.cn/4rb53l),按照說明上寫的按步驟操作就可以啦。
如果你想學更高階的Python爬蟲,DataCastle為你準備了一套高效的學習路徑。
如何在短時間內入門爬蟲,並獲得爬取大量資料的能力?
DataCastle學院課程《Python爬蟲(入門+進階)》從具體的案例著手,通過實際操作,學習具體的知識點。
課程中工程化爬蟲及分散式爬蟲技術,讓你有獲取大規模資料的可能。此外,你還將瞭解資料庫(Mongodb)、pandas的基本知識,幫你儲存爬取的資料,同時可以對資料進行管理和清洗,便於後續分析處理。
來源:DataCastle資料城堡
近期精彩活動(直接點選檢視):
END投稿和反饋請發郵件至[email protected]。轉載大資料公眾號文章,請向原文作者申請授權,否則產生的任何版權糾紛與大資料無關。
大資料為大家提供與大資料相關的最新技術和資訊。
長按指紋 > 識別圖中二維碼 > 新增關注近期精彩文章(直接點選檢視):
更多精彩文章,請在公眾號後臺點選“歷史文章”檢視,謝謝。