Python基於pandas爬取網頁表格資料

阿新 • • 發佈：2020-05-12

以網頁表格為例：https://www.kuaidaili.com/free/

該網站資料存在table標籤，直接用requests，需要結合bs4解析正則/xpath/lxml等，沒有幾行程式碼是搞不定的。

今天介紹的黑科技是pandas自帶爬蟲功能，pd.read_html()，只需傳人url，一行程式碼搞定。

原網頁結構如下：

Python基於pandas爬取網頁表格資料

python程式碼如下：

import pandas as pd
url='http://www.kuaidaili.com/free/'
df=pd.read_html(url)[0] 
# [0]：表示第一個table，多個table需要指定，如果不指定預設第一個
# 如果沒有【0】，輸入dataframe格式組成的list
df

輸出dataframe格式資料

Python基於pandas爬取網頁表格資料

Python基於pandas爬取網頁表格資料

再次儲存到本地，csv格式，注意中文編碼：utf_8_sig

print(type(df))df.to_csv('free ip.csv',mode='a',encoding='utf_8_sig',header=1,index=0)print('done!')

檢視csv檔案

Python基於pandas爬取網頁表格資料

先來了解一下read_html函式的api:

pandas.read_html(io,match='.+',flavor=None,header=None,index_col=None,skiprows=None,attrs=None,parse_dates=False,tupleize_cols=None,thousands=',',encoding=None,decimal='.',converters=None,na_values=None,keep_default_na=True,displayed_only=True)

常用的引數：

io:可以是url、html文字、本地檔案等；
flavor：解析器；
header：標題行；
skiprows：跳過的行；
attrs：屬性，比如 attrs = {'id': 'table'}；
parse_dates：解析日期

注意：返回的結果是**DataFrame**組成的**list**。

若要dataframe，直接取list【0】

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

Python基於pandas爬取網頁表格資料

以網頁表格為例：https://www.kuaidaili.com/free/ 該網站資料存在table標籤，直接用requests，需要結合bs4解析正則/xpath/lxml等，沒有幾行程式碼是搞不定的。

另類Python爬蟲，利用pandas庫的read_html()方法爬取網頁表格型資料

文章目錄一、簡介二、原理三、爬取實戰例項1 例項2 一、簡介很多人學習python，不知道從何學起。很多人學習python，掌握了基本語法過後，不知道在哪裡尋找案例上手。很多已經做案例的人，卻不知道

Python基於BeautifulSoup爬取京東商品資訊

今天小編利用美麗的湯來為大家演示一下如何實現京東商品資訊的精準匹配~~

使用Excel功能抓取網頁表格資料

對於非工科專業的來說（例如文學歷史）學習爬蟲似乎沒有多少必要，在日常工作之中根據工作學習就可以時間一長，就可以直接使用的非常熟練了。

python定時簡單爬取網頁新聞存入資料庫併發送郵件

本人小白一枚，簡單記錄下學校作業專案，程式碼十分簡單，主要是對各個庫的理解，希望能給別的初學者一點啟發。O(∩_∩)O

詳解python定時簡單爬取網頁新聞存入資料庫併發送郵件

本人小白一枚，簡單記錄下學校作業專案，程式碼十分簡單，主要是對各個庫的理解，希望能給別的初學者一點啟發。

Python爬蟲：爬取喜馬拉雅音訊資料詳解

前言喜馬拉雅是專業的音訊分享平臺，彙集了有聲小說,有聲讀物,有聲書,FM電臺,兒童睡前故事,相聲小品,鬼故事等數億條音訊，我最喜歡聽民間故事和德雲社相聲集，你呢？

python+mongo+BeautifulSoup爬取網頁小說

技術標籤：python 申明，本人非專業python職業者。以下程式碼作為自己學習使用。

Python 爬蟲批量爬取網頁圖片儲存到本地的實現程式碼

其實和爬取普通資料本質一樣，不過我們直接爬取資料會直接返回，爬取圖片需要處理成二進位制資料儲存成圖片格式（.jpg,.png等）的資料文字。

python爬蟲實現爬取網頁主頁資訊（html程式碼）

技術標籤：pythonweb python爬蟲實現爬取網頁主頁資訊（html程式碼） 1.爬取網站原始碼

Python實現爬取網頁中動態載入的資料

在使用python爬蟲技術採集資料資訊時，經常會遇到在返回的網頁資訊中，無法抓取動態載入的可用資料。例如，獲取某網頁中，商品價格時就會出現此類現象。如下圖所示。本文將實現爬取網頁中類似的動態載入的資料。

python爬蟲爬取網頁資料並解析資料

1.網路爬蟲的基本概念網路爬蟲（又稱網路蜘蛛，機器人），就是模擬客戶端傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。

如何用python爬蟲代理ip爬取網頁資料？

在網路行銷時代，許多模式已不能適應網際網路新時代，常常無法達到行銷效果，要想更好地運作網路行銷，需要藉助許多行銷工具，做好每一步。與網路問答推廣一樣，代理IP的支援也是不可或缺的。必須在營銷過程中尋找

Python爬取網頁上想要的資料

原始碼如下 from urllib.request import urlopen,Request import urllib.request import re from bs4 import BeautifulSoup

用python爬取歷史天氣資料的方法示例

某天氣網站（www.數字.com）存有2011年至今的天氣資料，有天看到一本爬蟲教材提到了爬取這些資料的方法，學習之，並加以改進。

Python如何使用BeautifulSoup爬取網頁資訊

這篇文章主要介紹了Python如何使用BeautifulSoup爬取網頁資訊,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python+selenium定時爬取丁香園的新型冠狀病毒資料並製作出類似的地圖（部署到雲伺服器）

前言硬要說這篇文章怎麼來的，那得先從那幾個吃野味的人開始說起…… 前天睡醒：假期還有幾天；昨天睡醒：假期還有十幾天；今天睡醒：假期還有一個月…… 每天過著幾乎和每個假期一樣的宅男生活，唯一不同的是玩手機

Python爬蟲爬取電影票房資料及圖表展示操作示例

本文例項講述了Python爬蟲爬取電影票房資料及圖表展示操作。分享給大家供大家參考，具體如下：

Python爬蟲爬取、解析資料操作示例

本文例項講述了Python爬蟲爬取、解析資料操作。分享給大家供大家參考，具體如下：

Python selenium爬取微博資料程式碼例項

爬取某人的微博資料，把某人所有時間段的微博資料都爬下來。具體思路：建立driver-----get網頁----找到並提取資訊-----儲存csv----翻頁----get網頁（開始迴圈）----...----沒有“下一頁”就結束，