python資料科學--pandas入門
阿新 • • 發佈:2018-11-20
pandas庫建立在numpy之上,為python程式語言提供了易於使用的資料結構和資料分析工具
匯入pandas模組
import pandas as pd
pandas資料結構:Series,能夠儲存任何資料型別的一維陣列
DataFrame:可以儲存不同資料型別的二維陣列
I/O:讀寫到CSV檔案
pd.to_csv('file.csv') #儲存到.csv檔案中
pd.read_csv('file.csv') #從.csv檔案中讀資料
I/O:讀寫到Excel檔案
pd.to_excel('file.xlsx') #寫操作 pd.read_excel('file.xlsx') #讀操作
幫助程式碼
help(pd.Series.loc)
對SQL查詢或資料庫表進行讀寫
Read Sql()是一個關於read_sql_table()和read_sql_query()的便利包裝器。
刪除資料元素
df.drop([1],axis=0) #刪除索引為1的一行資料
df.drop('Country',axis=1) #刪除索引為Country的一列資料,axis=1
排序
df.sort_index() #按軸排序陣列 df.sort_values(by='Country') #按按軸值排序 df.rank()
基本方法
df.shape #返回DataFrame的行列數
df.index #描述DataFrame的行索引
df.columns #描述DataFrame的列索引
df.info() #描述DataFrame的基本資訊
df.count() #返回每一列對應的元素個數
操作
df.sum() #值之和 df.cumsum() #累積值和 df.min() #最小值 df.max() #最大值 df.idxmin() #最小索引值 df.idxmax() #最大索引值 df.describe() #彙總統計 df.mean() #平均值 df.median() #中位數
資料清洗