Python抓取網頁資料的終極辦法

阿新 • • 發佈：2019-01-09

假設你在網上搜索某個專案所需的原始資料，但壞訊息是資料存在於網頁中，並且沒有可用於獲取原始資料的API。

所以現在你必須浪費30分鐘寫指令碼來獲取資料（最後花費 2小時）。

這不難但是很浪費時間。

Pandas庫有一種內建的方法，可以從名為read_html()的html頁面中提取表格資料:

https://pandas.pydata.org/

importpandasaspd

tables = pd.read_html("https://apps.sandiego.gov/sdfiredispatch/")

print(tables[0])

就這麼簡單! Pandas可以在頁面上找到所有重要的html表，並將它們作為一個新的DataFrame物件返回。

https://pandas.pydata.org/pandas-docs/stable/dsintro.html#dataframe

輸入表格0行有列標題，並要求它將基於文字的日期轉換為時間物件:

importpandasaspd

calls_df, = pd.read_html("http://apps.sandiego.gov/sdfiredispatch/", header=0, parse_dates=["Call Date"])

print(calls_df)

得到：

CallDateCallTypeStreetCrossStreets    Unit

2017-06-0217:27:58Medical         HIGHLAND AV                 WIGHTMAN ST/UNIVERSITY AV     E17

2017-06-0217:27:58Medical         HIGHLAND AV                 WIGHTMAN ST/UNIVERSITY AV     M34

2017-06-0217:23:51Medical          EMERSON ST                    LOCUST ST/EVERGREEN ST     E22

2017-06-0217:23:51Medical          EMERSON ST                    LOCUST ST/EVERGREEN ST     M47

2017-06-0217:23:15Medical         MARAUDER WY                     BARONLN/FROBISHER ST     E38

2017-06-0217:23:15Medical         MARAUDER WY                     BARONLN/FROBISHER ST     M41

是一行程式碼，資料不能作為json記錄可用。

importpandasaspd

calls_df, = pd.read_html("http://apps.sandiego.gov/sdfiredispatch/", header=0, parse_dates=["Call Date"])

print(calls_df.to_json(orient="records", date_format="iso"))

執行下面的程式碼你將得到一個漂亮的json輸出(即使有適當的ISO 8601日期格式):

[

{

"Call Date":"2017-06-02T17:34:00.000Z",

"Call Type":"Medical",

"Street":"ROSECRANS ST",

"Cross Streets":"HANCOCK ST/ALLEY",

"Unit":"M21"

},

{

"Call Date":"2017-06-02T17:34:00.000Z",

"Call Type":"Medical",

"Street":"ROSECRANS ST",

"Cross Streets":"HANCOCK ST/ALLEY",

"Unit":"T20"

},

{

"Call Date":"2017-06-02T17:30:34.000Z",

"Call Type":"Medical",

"Street":"SPORTS ARENA BL",

"Cross Streets":"CAM DEL RIO WEST/EAST DR",

"Unit":"E20"

}

// etc...

]

你甚至可以將資料儲存到CSV或XLS檔案中:

importpandasaspd

calls_df, = pd.read_html("http://apps.sandiego.gov/sdfiredispatch/", header=0, parse_dates=["Call Date"])

calls_df.to_csv("calls.csv", index=False)

執行並雙擊calls.csv在電子表格中開啟:

當然，Pandas還可以更簡單地對資料進行過濾，分類或處理：

>>> calls_df.describe()

CallDateCall Type      Street           Cross Streets Unit

count6969696469

unique292292760

top2017-06-0216:59:50Medical  CHANNEL WY  LA SALLE ST/WESTERN ST   E1

freq566552

first2017-06-0216:36:46NaNNaNNaNNaN

last2017-06-0217:41:30NaNNaNNaNNaN

>>> calls_df.groupby("Call Type").count()

CallDateStreet  Cross Streets  Unit

Call Type

Medical66666166

Traffic Accident (L1)3333

>>> calls_df["Unit"].unique()

array(['E46','MR33','T40','E201','M6','E34','M34','E29','M30',

'M43','M21','T20','E20','M20','E26','M32','SQ55','E1',

'M26','BLS4','E17','E22','M47','E38','M41','E5','M19',

'E28','M1','E42','M42','E23','MR9','PD','LCCNOT','M52',

'E45','M12','E40','MR40','M45','T1','M23','E14','M2','E39',

'M25','E8','M17','E4','M22','M37','E7','M31','E9','M39',

'SQ56','E10','M44','M11'], dtype=object)

Python抓取網頁資料的終極辦法

假設你在網上搜索某個專案所需的原始資料，但壞訊息是資料存在於網頁中，並且沒有可用於獲取原始資料的API。所以現在你必須浪費30分鐘寫指令碼來獲取資料（最後花費 2小時）。這不難但是很浪費時間。 Pandas庫有一種內建的方法，可以從名為re

python抓取網頁資料處理後視覺化

抓取文章的連結，訪問量儲存到本地 1 #coding=utf-8 2 import requests as req 3 import re 4 import urllib 5 from bs4 import BeautifulSoup 6 import sys 7 import code

Python抓取網頁動態資料——selenium webdriver的使用

文章目的當我們使用Python爬取網頁資料時，往往用的是urllib模組，通過呼叫urllib模組的urlopen(url)方法返回網頁物件，並使用read()方法獲得url的html內容，然後使用BeautifulSoup抓取某個標籤內容，結合正則表示式過濾。但是，用u

python的BeautifulSoup實現抓取網頁資料

1環境：pycharm，python3.4 2.原始碼解析 import requests import re from bs4 import BeautifulSoup #通過requests.get獲取整個網頁的資料 def getHtmlText(url):

Python爬蟲 BeautifulSoup抓取網頁資料並儲存到資料庫MySQL

最近剛學習Python，做了個簡單的爬蟲，作為一個簡單的demo希望幫助和我一樣的初學者程式碼使用python2.7做的爬蟲抓取51job上面的職位名，公司名，薪資，釋出時間等等直接上程式碼，程式碼中註釋還算比較清楚，沒有安裝mysql需要遮蔽掉相關程式碼：#!/u

Python 抓取網頁gb2312亂碼問題

發現 file read earch () spa .com pycharm close python 爬取學校所有人四六級成績時發現爬出網頁中文亂碼遂google 得到一解決方案 # -*- coding:utf8 -*- import urllib2

記錄一次python抓取網頁下載視訊

最近看了電影狂暴巨獸，連結是那種不固定的http連結，有可能隨時就打不開了，然後想下載下來留著，但是網頁不提供下載，所以就自己抓取了相關視訊，然後下載。廢話不多說，直接上乾貨。用fiddle抓取主要的視訊。下圖就是抓取時候產生的相關資訊。逐條進行分析，然後找到電影的包的地址。 http

有搜尋條件根據url抓取網頁資料(java爬取網頁資料)

最近有一個任務抓取如下圖的網頁資料要獲取前一天的資料進行翻頁抓取資料並存入資料庫如果就只是抓取當前頁的資料沒有條件和翻頁資料這個就比較簡單了但是要選取前一天的資料,還有分頁資料一開始的思路就想錯了(開始想的是觸發查詢按鈕和

Python抓取股票資料，如何用python程式設計賺取第一桶金？

Python開發的一個快速,高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試。 Scrapy吸引人的地方在於它是一個框架，任何人都可以根據需求方便的修改。它也提供了多種型別爬蟲的基類，如BaseSpid

Python爬取網頁資料並匯入表格

import requests import time import random import socket import http.client from bs4 import BeautifulSoup import csv def getContent(url

python爬蟲爬取非同步載入網頁資訊（python抓取網頁中無法通過網頁標籤屬性抓取的內容）

1.問題描述最近由於學習內容的要求，需要從網頁上抓取一些資料來做分析報告，在看了python爬蟲的一些基礎知識之後就直接上手去網站上爬資料了。作為新手踩坑是無法避免，最近就遇到了一個比較難的問題：一般情況下，要抓去網頁上某個標籤上的內容，在通過urllib下

使用python抓取App資料

App中的資料可以用網路爬蟲抓取麼答案是完全肯定的：凡是可以看到的APP資料都可以抓取。下面我就介紹下自己的學習經驗和一些方法吧本篇適合有過web爬蟲基礎的程式猿看沒有的的話學的可能會吃力一些 App介面爬取資料過程使用抓包工具手機使

python抓取動態資料 A股上市公司基本資訊

1.背景之前寫的抓取A股所有上市公司資訊的小程式在上交所網站改版後，需要同步修改 pyton2.7.9 2.分析過程以抓取宇通客車【600066】資訊為例紅框中的內容是需要抓取的資訊，檢視網頁原始碼可以看到公司資訊並沒有直接寫到html中，使用chrome “

Python 抓取網頁學習系列之一（網頁編碼格式

第一步：你需要知道你所抓取的網頁編碼格式，方法：右鍵檢視網頁編碼，ctrl +F ，搜尋：charset會看到：<meta http-equiv="Content-Type" content="text/html; charset=gbk" />，OK確定是gb

【例項】python抓取網頁

>>> __author__ = 'Administrator'>>> import urllib.request>>> import re>>> from bs4 import BeautifulSou

Python抓取網頁&批量下載檔案方法初探（正則表示式+BeautifulSoup）

最近兩週都在學習Python抓取網頁方法，任務是批量下載網站上的檔案。對於一個剛剛入門python的人來說，在很多細節上都有需要注意的地方，以下就分享一下我在初學python過程中遇到的問題及解決方法。一、用Python抓取網頁基本方法： import urllib

Java抓取網頁資料（原網頁+Javascript返回資料）

轉載請註明出處！有時候由於種種原因，我們需要採集某個網站的資料，但由於不同網站對資料的顯示方式略有不同！本文就用Java給大家演示如何抓取網站的資料：（1）抓取原網頁資料；（2）抓取網頁Jav

抓取網頁資料 A標籤的HREF 值

在工作中，我們有時候需要從特定的網頁中抓取我們想要的資料，由於工作的需要，我給大家推薦一個專門的抓取類：Winista.HtmlParser.dll 當我們需要從有規律的網頁中提取資料時，如table tr td; ul li之類的，如果用正則表示式，或者做字串的處理，會非常

Python抓取網頁並儲存為PDF

1、開發環境搭建（1）Python2.7.13的安裝：參考《廖雪峰老師的網站》（2）Python包管理器pip的安裝：參考《pip安裝文件說明》因為基於版本2.7.13，因為2.7.9以上已經自帶pip，所以不需要單獨安裝，但是需要我們更新。上面的說

node.js 小爬蟲抓取網頁資料（2）

node.js 小爬蟲抓取網頁資料在原來的基礎上，採用了promise的模組，使其可以一次性多頁面的爬取網頁資料。 var http = require('http') var Promise = require('promise') var cheerio = re

Python抓取網頁資料的終極辦法

相關推薦