Pandas DataFrame資料的增、刪、改、查
阿新 • • 發佈:2019-01-01
準備工作:
增、刪、改、查的方法有很多很多種,這裡只展示出常用的幾種。
引數inplace預設為False,只能在生成的新資料塊中實現編輯效果。當inplace=True時執行內部編輯,不返回任何值,原資料發生改變。
>>> import numpy as np >>> import pandas as pd df = pd.DataFrame(data = [['lisa','f',22],['joy','f',22],['tom','m','21']],index = [1,2,3],columns = ['name','sex','age'])#測試資料。 >>> df name sex age 1 lisa f 22 2 joy f 22 3 tom m 21
一、增
1.按列增加。
>>> citys = ['ny','zz','xy'] >>> df.insert(0,'city',citys) #在第0列,加上column名稱為city,值為citys的數值。 >>> jobs = ['student','AI','teacher'] >>> df['job'] = jobs #預設在df最後一列加上column名稱為job,值為jobs的資料。 >>> df.loc[:,'salary'] = ['1k','2k','2k','2k','3k'] #在df最後一列加上column名稱為salary,值為等號右邊資料。
2.按行增加。
>>> df.loc[4] = ['zz','mason','m',24,'engineer’]#若df中沒有index為“4”的這一行的話,該行程式碼作用是往df中加一行index為“4”,值為等號右邊值的資料。若df中已經有index為“4”的這一行,則該行程式碼作用是把df中index為“4”的這一行修改為等號右邊資料。 >>> df_insert = pd.DataFrame({'name':['mason','mario'],'sex':['m','f'],'age':[21,22]},index = [4,5]) >>> ndf = df.append(df_insert,ignore_index = True) #返回新增後的值,並不會修改df的值。ignore_index預設為False,意思是不忽略index值,即生成的新的ndf的index採用df_insert中的index值。若為True,則新的ndf的index值不使用df_insert中的index值,而是自己預設生成。
二、查
1. df['column_name'] 和df[row_start_index, row_end_index]
df['name']
df['gender']
df[['name','gender']] #選取多列,多列名字要放在list裡
df[0:] #第0行及之後的行,相當於df的全部資料,注意冒號是必須的
df[:2] #第2行之前的資料(不含第2行)
df[0:1] #第0行
df[1:3] #第1行到第2行(不含第3行)
df[-1:] #最後一行
df[-3:-1] #倒數第3行到倒數第1行(不包含最後1行即倒數第1行,這裡有點煩躁,因為從前數時從第0行開始,從後數就是-1行開始,畢竟沒有-0)
2. df.loc[index,column]
# df.loc[index, column_name],選取指定行和列的資料
df.loc[0,'name'] # 'Snow'
df.loc[0:2, ['name','age']] #選取第0行到第2行,name列和age列的資料, 注意這裡的行選取是包含下標的。
df.loc[[2,3],['name','age']] #選取指定的第2行和第3行,name和age列的資料
df.loc[df['gender']=='M','name'] #選取gender列是M,name列的資料
df.loc[df['gender']=='M',['name','age']] #選取gender列是M,name和age列的資料
3. iloc[row_index, column_index]
df.iloc[0,0] #第0行第0列的資料,'Snow'
df.iloc[1,2] #第1行第2列的資料,32
df.iloc[[1,3],0:2] #第1行和第3行,從第0列到第2列(不包含第2列)的資料
df.iloc[1:3,[1,2] #第1行到第3行(不包含第3行),第1列和第2列的資料
三、改
3.1 改行列標題。
>>> df.columns = ['name','gender','age'] #儘管我們只想把’sex’改為’gender’,但是仍然要把所有的列全寫上,否則報錯。
>>> df.rename(columns = {'name':'Name','age':'Age'},inplace = True) #只修改name和age。inplace若為True,直接修改df,否則,不修改df,只是返回一個修改後的資料。
>>> df.index = list('abc')#把index改為a,b,c.直接修改了df。
>>> df.rename({1:'a',2:'b',3:'c'},axis = 0,inplace = True)#無返回值,直接修改df的index。
3.2 改數值
1. 使用loc
>>> df.loc[1,'name'] = 'aa' #修改index為‘1’,column為‘name’的那一個值為aa。
>>> df.loc[1] = ['bb','ff',11] #修改index為‘1’的那一行的所有值。
>>> df.loc[1,['name','age']] = ['bb',11] #修改index為‘1’,column為‘name’的那一個值為bb,age列的值為11。
2. 使用iloc[row_index, column_index]:
>>> df.iloc[1,2] = 19#修改某一無素
>>> df.iloc[:,2] = [11,22,33] #修改一整列
>>> df.iloc[0,:] = ['lily','F',15] #修改一整行
四、刪
1.刪除行。
>>> df.drop([1,3],axis = 0,inplace = False)#刪除index值為1和3的兩行,
2.刪除列。
>>> df.drop(['name'],axis = 1,inplace = False) #刪除name列。
>>> del df['name'] #刪除name列。
>>> ndf = df.pop('age’)#刪除age列,操作後,df都丟掉了age列,age列返回給了ndf。