pandas.read_html()讀取網頁表格類資料

阿新 • • 發佈：2021-02-06

目標網站
http://www.tianqihoubao.com/lishi/wanzhou/month/201101.html

表格類資料格式樣子

大致網路結構

<table class="..." id="..." ...>
	 ...
     <tbody>
        <tr>
            <td>...</td>
        </tr>
        <tr>...</tr>
        <tr> 
...</tr>
        <tr>...</tr>
        <tr>...</tr>
        ...
        <tr>...</tr>
        <tr>...</tr>        
    </tbody>
</table>

<table></table> 表示整體表格
 <tr>...</tr>表示一行
 <td>...</td>表示某一格的資料

程式碼

從HTML檔案讀取資料

如上所示，Pandas可以直接用DataFrame生成HTML表格，同樣可以讀取HTML檔案。read_html()函式解析HTML頁面，尋找HTML表格。如果找到，就將其轉換為可以直接用於資料分析的DataFrame物件。

即使只有一個表格，read_html()函式也會返回一個DataFrame列表

import pandas as pd

dates=[201901,201902,201903,201904,201905,201906,201907,201908,201909,201910,201911,201912]
print(dates)# 構造出日期序列  便於之後構造url

for i in range(len(dates) 
):
    df = pd.read_html(f'http://www.tianqihoubao.com/lishi/wanzhou/month/{dates[i]}.html', encoding='gbk', header=0)[0]
    print(df)
    if i == 0:
        df.to_csv('2019年萬州天氣預報資料.csv', mode='a+', index=False)     # mode='a+'追加寫入
        i += 1
    else:
        df.to_csv('2019年萬州天氣預報資料.csv', mode='a+', index=False, header=False)
print('結束')

換一個網站
http://data.eastmoney.com/hsgt/top10.html

import pandas as pd
df = pd.read_html(f'http://data.eastmoney.com/hsgt/top10.html', encoding='gbk')[0]
print(df)

一些複雜網站無法讀取。
能讀取就讀，不能讀就嘗試爬蟲吧
在這裡插入圖片描述

pandas.read_html()讀取網頁表格類資料

技術標籤：爬蟲python 目標網站 http://www.tianqihoubao.com/lishi/wanzhou/month/201101.html 表格類資料格式樣子

另類Python爬蟲，利用pandas庫的read_html()方法爬取網頁表格型資料

文章目錄一、簡介二、原理三、爬取實戰例項1 例項2 一、簡介很多人學習python，不知道從何學起。很多人學習python，掌握了基本語法過後，不知道在哪裡尋找案例上手。很多已經做案例的人，卻不知道

Python基於pandas爬取網頁表格資料

以網頁表格為例：https://www.kuaidaili.com/free/ 該網站資料存在table標籤，直接用requests，需要結合bs4解析正則/xpath/lxml等，沒有幾行程式碼是搞不定的。

使用 Python 讀取電子表格中的資料例項詳解

Python 是最流行、功能最強大的程式語言之一。由於它是自由開源的，因此每個人都可以使用。大多數 Fedora 系統都已安裝了該語言。Python 可用於多種任務，其中包括處理逗號分隔值（CSV）資料。CSV檔案一開始往往是以

pandas分批讀取大資料集教程

如果你的電腦記憶體較小那麼想在本地做一些事情是很有侷限性的（哭喪臉），比如想拿一個kaggle上面的競賽來練練手，你會發現多數訓練資料集都是大幾G或者幾十G的，自己那小破電腦根本跑不起來。行，你有8000w條樣本你

三、Python系列——Pandas資料庫讀取資料

Pandas主要先讀取表格型別的資料，然後進行分析。 import pandas as pd# 由於是用pandas模組操作資料，因此不用在路徑前加open,否則就是python直接開啟檔案，可能還會打不開出錯# file_path_excel = open(\'E:\\\\

使用Excel功能抓取網頁表格資料

對於非工科專業的來說（例如文學歷史）學習爬蟲似乎沒有多少必要，在日常工作之中根據工作學習就可以時間一長，就可以直接使用的非常熟練了。

python——使用xlrd庫讀取excel表格資料

技術標籤：pythonpythonexcel 環境準備需要下載xlrd==1.2.0版本，因為目前xlrd更新到了2.0.1版本，只支援.xls檔案。所以如果需要讀取.xlsx檔案，需要安裝舊版本。

pandas read_csv讀取資料時，數字欄位值以文字方式讀取

技術標籤：Python學習筆記pythonpandas pandas 讀取csv文字時，數字欄位值中有以0開頭的，讀取後0會被丟掉，如下圖文字：以預設方式讀取如下：

JAVA使用hutool poi工具讀取Excel表格指定行列範圍的資料

1.pom.xml依賴配置 <dependencies>  <dependency> <groupId>cn.hutool</groupId>

SpringMVC註解版：讀取核心配置類

有的時候真心不喜歡這個世界！！！第一步：Servlet容器的初始化按照之前傳統的方式來配置SpringMVC需要在web.xml中配置DispatcherServlet，但是在Servlet3規範和Spring3.1之後新增了一種方式，那就是java和註解的

IOS-MVC層讀取伺服器介面JSON資料

此篇文章主要講述獲取伺服器JSON介面資料，以便大家在今後的物聯網資訊時代，移動資料肯定都是需要網路資料的，那麼就需要用一個分佈集中，整體化的，規範性的建立所需的檔案，同時方便以後維護；

SPRINGBOOT讀取PROPERTIES配置檔案資料過程詳解

這篇文章主要介紹了SPRINGBOOT讀取PROPERTIES配置檔案資料過程詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

使用python的pandas庫讀取csv檔案儲存至mysql資料庫

第一：pandas.read_csv讀取本地csv檔案為資料框形式 data=pd.read_csv(\'G:\\data_operation\\python_book\\chapter5\\\\sales.csv\')

用python3讀取python2的pickle資料方式

問題一：TypeError: a bytes-like object is required,not \'str\' 解決：該問題屬於Python3和Python2的字串相容問題，資料檔案是在Python2下序列化的，使用Python3讀取時，需要將‘str\'轉化為\'bytes\'。

python實現的讀取網頁並分詞功能示例

本文例項講述了python實現的讀取網頁並分詞功能。分享給大家供大家參考，具體如下：

python讀取Excel表格檔案的方法

python讀取Excel表格檔案，例如獲取這個檔案的資料 python讀取Excel表格檔案，需要如下步驟：

基於Python和PyYAML讀取yaml配置檔案資料

一、首先我們需要安裝 PyYAML 第三方庫直接使用 pip install PyYAML 就可以（這裡我之前是裝過的，所以提示我PyYAML已經在這個目錄下了，是5.1.2版本的）

利用pyecharts讀取csv並進行資料統計視覺化的實現

因為需要一個html形式的資料統計介面，所以做了一個基於pyecharts包的視覺化程式，當然matplotlib還是常用的資料視覺化包，只不過各有優劣；基本功能概述就是讀取csv檔案資料，對每列進行資料統計並可視化，最後形成

python實現讀取類別頻數資料畫水平條形圖案例

1、資料分組-->頻數分佈表環境配置： import pandas as pd import numpy as np import matplotlib.pyplot as plt

pandas.read_html()讀取網頁表格類資料

相關推薦