1. 程式人生 > >python資料科學--pandas入門

python資料科學--pandas入門

pandas庫建立在numpy之上,為python程式語言提供了易於使用的資料結構和資料分析工具

匯入pandas模組

import pandas as pd

pandas資料結構:Series,能夠儲存任何資料型別的一維陣列

DataFrame:可以儲存不同資料型別的二維陣列

I/O:讀寫到CSV檔案

pd.to_csv('file.csv')        #儲存到.csv檔案中
pd.read_csv('file.csv')      #從.csv檔案中讀資料

I/O:讀寫到Excel檔案

pd.to_excel('file.xlsx')        #寫操作
pd.read_excel('file.xlsx')      #讀操作

幫助程式碼

help(pd.Series.loc)

對SQL查詢或資料庫表進行讀寫

Read Sql()是一個關於read_sql_table()和read_sql_query()的便利包裝器。

刪除資料元素

df.drop([1],axis=0)          #刪除索引為1的一行資料
df.drop('Country',axis=1)    #刪除索引為Country的一列資料,axis=1

排序

df.sort_index()                #按軸排序陣列
df.sort_values(by='Country')   #按按軸值排序
df.rank()

基本方法

df.shape        #返回DataFrame的行列數
df.index        #描述DataFrame的行索引
df.columns      #描述DataFrame的列索引
df.info()       #描述DataFrame的基本資訊
df.count()      #返回每一列對應的元素個數

操作

df.sum()        #值之和
df.cumsum()     #累積值和
df.min()        #最小值
df.max()        #最大值
df.idxmin()     #最小索引值
df.idxmax()     #最大索引值
df.describe()   #彙總統計
df.mean()       #平均值
df.median()     #中位數

資料清洗