獨家 | 手把手教你用Python進行Web抓取(附程式碼)
阿新 • • 發佈:2018-11-27
作為一名資料科學家,我在工作中所做的第一件事就是網路資料採集。使用程式碼從網站收集資料,當時對我來說是一個完全陌生的概念,但它是最合理、最容易獲取的資料來源之一。經過幾次嘗試,網路抓取已經成為我的第二天性,也是我幾乎每天使用的技能之一。
在本教程中,我將介紹一個簡單的例子,說明如何抓取一個網站,我將從Fast Track上收集2018年百強公司的資料:
Fast Track:
http://www.fasttrack.co.uk/
使用網路爬蟲將此過程自動化,避免了手工收集資料,節省了時間,還可以讓所有資料都放在一個結構化檔案中。
用Python實現一個簡單的網路爬蟲的快速示例,您可以在GitHub上找到本教程中所介紹的完整程式碼。
GitHub連結:
https://github.com/kaparker/tutorials/blob/master/pythonscraper/websitescrapefasttrack.py
以下是本文使用Python進行網頁抓取的簡短教程概述:
● 連線到網頁
● 使用BeautifulSoup解析html
● 迴圈通過soup物件找到元素
● 執行一些簡單的資料清理
● 將資料寫入csv
準備開始
在開始使用任何Python應用程式之前,要問的第一個問題是:我需要哪些庫?