pandas模組與dataframe

阿新 • • 發佈：2021-10-17

Series資料操作

增

res['a'] = 123

查

res.loc[1]

改

res[0] = 1

刪

del res[0]

算術運算子

"""
add		加(add)
sub		減(substract)
div		除(divide)
mul		乘(multiple)
"""
sr1 = pd.Series([12,23,34], index=['c','a','d'])
sr3 = pd.Series([11,20,10,14], index=['d','c','a','b'])
sr1.add(sr3,fill_value=0)

DataFrame建立方式

表格型資料結構，相當於一個二維陣列，含有一組有序的列也可以看作是由Series組成的共用一個索引的字典

第一種

res = pd.DataFrame({'one':[1,2,3,4],'two':[4,3,2,1]})

第二種

pd.DataFrame({'one':pd.Series([1,2,3],index=['a','b','c']),
　　　　　　　　'two':pd.Series([1,2,3],index=['b','a','c'])})

第三種

pd.DataFrame(np.array([[10,20],[30,40]]),index=['a','b'],columns=['c1','c2'])

pd.DataFrame([np.arange(1,8),np.arange(11,18)])
s1 = pd.Series(np.arange(1,9,2))
s2 = pd.Series(np.arange(2,10,2))
s3 = pd.Series(np.arange(5,7),index=[1,2])
df5 = pd.DataFrame({'c1':s1,'c2':s2,'c3':s3})

以上建立方式都僅僅做一個瞭解即可，因為工作中dataframe的資料一般都是來自於讀取外部檔案資料，而不是自己手動去建立。

常見屬性

1.index 行索引

2.columns 列索引

3.T 轉置

4.values 值索引

5.describe 快速統計

DataFrame資料型別補充

在DataFrame中所有的字元型別資料在檢視資料型別的時候都表示成object

讀取外部資料

讀取文字檔案和.csv結尾的檔案資料

pd.read_csv()

讀取excel表格檔案資料

pd.read_excel()

讀取MySQL表格資料

pd.read_sql()

讀取頁面上table標籤內所有的資料

pd.read_html()

文字檔案讀取

pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, usecols=None, skiprows=None, skipfooter=None, converters=None, encoding=None)

filepath_or_buffer

指定txt檔案或csv檔案所在的具體路徑

sep

指定原資料集中各欄位之間的分隔符，預設為逗號”,”

header

是否需要將原資料集中的第一行作為表頭，預設將第一行用作欄位名稱，如果原始資料沒有表頭需要將該引數設定為None

names

如果原資料集中沒有欄位，可以通過該引數在資料讀取時給資料框新增具體的表頭

usecols

指定需要讀取原資料集中的哪些變數名

skiprows

資料讀取時，指定需要跳過原資料集開頭的行數

有一些表格開頭是有幾行文字說明的，讀取的時候應該跳過

skipfooter

資料讀取時，指定需要跳過原資料集末尾的行數

converters

用於資料型別的轉換(以字典的形式指定)

encoding

如果檔案中含有中文，有時需要指定字元編碼

excel表格讀取

pd.read_excel(io, sheetname=0, header=0, skiprows=None, skip_footer=0, index_col=None, names=None,
na_values=None, thousands=None, convert_float=True)

pd.read_excel(r'data_test02.xlsx',
header = None,
names = ['ID','Product','Color','Size'],
converters = {'ID':str}
)

io

指定電子表格的具體路徑

sheet—name

指定需要讀取電子表格中的第幾個Sheet，既可以傳遞整數也可以傳遞具體的Sheet名稱

header

是否需要將資料集的第一行用作表頭，預設為是需要的

skiprows

讀取資料時，指定跳過的開始行數

skip_footer

讀取資料時，指定跳過的末尾行數

index_col

指定哪些列用作資料框的行索引(標籤)

na_values

指定原始資料中哪些特殊值代表了缺失值

thousands

指定原始資料集中的千分位符

convert_float

預設將所有的數值型欄位轉換為浮點型欄位

converters

通過字典的形式，指定某些列需要轉換的形式

資料庫資料讀取

# 在anaconda環境下直接安裝
# pymysql模組
import pymysql
conn = pymysql.connect(host,port,user,password, database, charset)
# 利用pymysql建立好連結MySQL的連結之後即可通過該連結操作MySQL
pd.read_sql('select * from user', con = conn)
conn.close()  # 關閉連結

host

指定需要訪問的MySQL伺服器

port

指定訪問MySQL資料庫的埠號 charset:指定讀取MySQL資料庫的字符集，如果資料庫表中含有中文，一般可以嘗試將該引數設定為 “utf8”或“gbk”

user

指定訪問MySQL資料庫的使用者名稱

password

指定訪問MySQL資料庫的密碼

database

指定訪問MySQL資料庫的具體庫名

網頁表格資料讀取

pd.read_html(r'https://baike.baidu.com/item/NBA%E6%80%BB%E5%86%A0%E5%86%9B/2173192?fr=aladdin')[0]

資料概覽

檢視行

df.columns

檢視列

df.index

行列

df.shape

資料型別

df.dtypes

取頭部多條資料

df.head(2)

取尾部多條資料

df.tail(3)

行列操作

獲取指定列對應的資料

df['列欄位名詞']
df.rename(column={'舊列名稱':'新列名稱'})

建立新的列

df['新列名稱']=df.列名稱/(df.列名稱1+df.列名稱2)

自定義位置

df.insert(3,'新列名稱',新資料)

新增行

df3 = df1.append(df2)

資料篩選

獲取指定列資料

df['列名']  # 單列資料
df[['列名1','列名2',...]]  # 多列資料

獲取指定行資料

sec_buildings.loc[sec_buildings["region"] == '浦東']

sec_buildings.loc[(sec_buildings["region"] == '浦東') & (sec_buildings['size'] > 150),]

sec_buildings.loc[(sec_buildings["region"] == '浦東') & (sec_buildings['size'] > 150),['name','tot_amt','price_unit']]

資料處理

sec_car = pd.read_csv(r'sec_cars.csv')
sec_car.head()
sec_car.dtypes
sec_car.Boarding_time = pd.to_datetime(sec_car.Boarding_time, format = '%Y年%m月')


sec_car.New_price = sec_car.New_price.str[:-1].astype(float)

pandas模組與dataframe

Series資料操作增 res[\'a\'] = 123 　　查 res.loc[1] 　　改 res[0] = 1 　　刪 del res[0] 　　算術運算子

Pandas模組——Series和DataFrame詳解

技術標籤：pytorchpythonpandas import pandas as pd 1. Pandas模組這裡主要講解兩種資料結構： 1）Series 2）DataFrame

【python】numpy中的array格式資料切片與pandas中的dataframe格式資料切片、相互轉換

技術標籤：python 1、將array資料轉為dataframe格式資料 import numpy as np import pandas as pd

Python 第三方模組資料分析 Pandas模組 DataFrame

技術標籤：資料科學# 資料分析# Pythonpython資料分析pandasDataFrame 一.簡介: 提供了比R語言的data.frame更豐富的功能

Python資料分析pandas模組用法例項詳解

本文例項講述了Python資料分析pandas模組用法。分享給大家供大家參考，具體如下：

pandas和spark dataframe互相轉換例項詳解

這篇文章主要介紹了pandas和spark dataframe互相轉換例項詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

淺談pandas.cut與pandas.qcut的使用方法及區別

pandas.cut: pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False) 引數：

Python json模組與jsonpath模組區別詳解

JSON（JavaScript Object Notation）是一種輕量級的資料交換格式，它使得人們很容易的進行閱讀和編寫。同時也方便了機器進行解析和生成。適用於進行資料互動的場景，比如網站前臺與後臺之間的資料互動。

使用Python內建模組與函式進行不同進位制的數的轉換

這篇文章主要介紹了使用Python內建的模組與函式進行不同進位制的數的轉換的方法,Python也使得讀取純二進位制檔案內容非常方便,需要的朋友可以參考下

python中pandas庫中DataFrame對行和列的操作使用方法示例

用pandas中的DataFrame時選取行或列： import numpy as np import pandas as pd from pandas import Sereis,DataFrame

模組與包

模組介紹模組是一系列功能的集合,分為三大類 1. 內建模組 2. 第三方模組 3. 自定義模組

es6 模組與commonJS的區別

在剛接觸模組化開發的階段，我總是容易將export、import、require等語法給弄混，今天索性記個筆記，將ES6 模組知識點理清楚

lua 模組與包

Lua 的模組是由變數、函式等已知元素組成的 table -- 檔名為 module.lua-- 定義一個名為 module 的模組module={}-- 定義一個常量module.constant=\"這是一個常量\"-- 定義一個函式functionmodule.func1() io.write(\

SpringBoot2.x入門教程：引入jdbc模組與JdbcTemplate簡單使用

這是公眾號《Throwable文摘》釋出的第23篇原創文章，收錄於專輯《SpringBoot2.x入門》。

SpringBoot2.x入門教程之引入jdbc模組與JdbcTemplate簡單使用方法

前提這篇文章是《SpringBoot2.x入門》專輯的第7篇文章，使用的SpringBoot版本為2.3.1.RELEASE，JDK版本為1.8。

pandas | 如何在DataFrame中通過索引高效獲取資料？

本文始發於個人公眾號：TechFlow，原創不易，求個關注今天是pandas資料處理專題的第四篇文章，我們一起來聊聊DataFrame中的索引。

pandas | 如何在DataFrame中通過索引高效獲取資料？（轉載）

今天是pandas資料處理專題的第四篇文章，我們一起來聊聊DataFrame中的索引。上一篇文章當中我們介紹了DataFrame資料結構當中一些常用的索引的使用方法，比如iloc、loc以及邏輯索引等等。今天的文章我們來看看DataFr

Python3筆記044 - 8.1 模組與包

第8章模組 8.1 模組與包模組在python中，一個副檔名為.py的檔案就稱之為一個模組，模組的英文是modules

python資料分析（八） python pandas--series和dataframe的方法，排序，統計

排序根據條件對結果進行排序，是pandas當中的一個重要方法，pandas提供了兩種排序方式，根據index值，或是根據其中的value進行排序

Task08：模組與datetime模組(2天)

目錄一、模組什麼是模組名稱空間匯入模組 if __name__ == \'__main__\' 搜尋路徑包（package）

pandas模組與dataframe

Series資料操作

增

查

改

刪

算術運算子

DataFrame建立方式

第一種

第二種

第三種

更多

常見屬性

DataFrame資料型別補充

讀取外部資料

讀取文字檔案和.csv結尾的檔案資料

讀取excel表格檔案資料

讀取MySQL表格資料

讀取頁面上table標籤內所有的資料

文字檔案讀取

filepath_or_buffer

sep

header

names

usecols

skiprows

skipfooter

converters

encoding

excel表格讀取

io

sheet—name

header

skiprows

skip_footer

index_col

na_values

thousands

convert_float

converters

資料庫資料讀取

host

port

user

password

database

網頁表格資料讀取

資料概覽

檢視行

檢視列

行列

資料型別

取頭部多條資料

取尾部多條資料

行列操作

獲取指定列對應的資料

建立新的列

自定義位置

新增行

資料篩選

獲取指定列資料

獲取指定行資料

資料處理

相關推薦