1. 程式人生 > >pandas與data.table比較和常用操作整理

pandas與data.table比較和常用操作整理

在對資料表進行日常操作時,有一些操作是經常用到的,記錄如下:
1.輸入:從檔案讀取資料/從頭建立一個dataframe
pd.DataFrame(data,index=[list],columns=[list])

2.修改列名、索引列
a.columns = [your list here]
DataFrame可以通過set_index方法,可以設定單索引和複合索引。
3.切片操作
df可以[]直接切片,不過規則比較混亂
http://www.cnblogs.com/daozhongshu/archive/2018/04/30/8973439.html
loc使用標籤來索引資料
iloc使用數字來索引資料
ix是一種混合索引,字元型標籤和整型資料索引都可以,不過這個方法已經廢棄。
df.loc[[0, 1, 10, 100], [‘country’, ‘province’, ‘region_1’, ‘region_2’]] ##根據index和column名字選取。左閉右開
#使用iloc函式選取第3行到第5行與第3列到第5列的資料
df.iloc[3:5,3:5] ##根據index和column用數字表示的位置選取 雙側開

4.類sql查詢操作
5.新增,刪除,修改列
pd.concat([df, pd.DataFrame(columns=list(‘DE’))]) #新增列
df[‘newcolumn’]=None
6.分類彙總
df.groupby
7.輸出到檔案/資料庫