1. 程式人生 > >獨家 | 手把手教你用Python進行Web抓取(附程式碼)

獨家 | 手把手教你用Python進行Web抓取(附程式碼)

作為一名資料科學家,我在工作中所做的第一件事就是網路資料採集。使用程式碼從網站收集資料,當時對我來說是一個完全陌生的概念,但它是最合理、最容易獲取的資料來源之一。經過幾次嘗試,網路抓取已經成為我的第二天性,也是我幾乎每天使用的技能之一。

在本教程中,我將介紹一個簡單的例子,說明如何抓取一個網站,我將從Fast Track上收集2018年百強公司的資料:

Fast Track:

http://www.fasttrack.co.uk/

使用網路爬蟲將此過程自動化,避免了手工收集資料,節省了時間,還可以讓所有資料都放在一個結構化檔案中。

用Python實現一個簡單的網路爬蟲的快速示例,您可以在GitHub上找到本教程中所介紹的完整程式碼。

GitHub連結:

https://github.com/kaparker/tutorials/blob/master/pythonscraper/websitescrapefasttrack.py

以下是本文使用Python進行網頁抓取的簡短教程概述:

 ●  連線到網頁
 ●  使用BeautifulSoup解析html
 ●  迴圈通過soup物件找到元素
 ●  執行一些簡單的資料清理
 ●  將資料寫入csv

準備開始

在開始使用任何Python應用程式之前,要問的第一個問題是:我需要哪些庫?

原文連結