Pandas的set_index和reset_index用法
阿新 • • 發佈:2018-12-18
set_index():
函式原型:DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)
引數解釋:
keys:列標籤或列標籤/陣列列表,需要設定為索引的列
drop:預設為True,刪除用作新索引的列
append:預設為False,是否將列附加到現有索引
inplace:預設為False,適當修改DataFrame(不要建立新物件)
verify_integrity:預設為false,檢查新索引的副本。否則,請將檢查推遲到必要時進行。將其設定為false將提高該方法的效能。
#drop的使用: import pandas as pd df = pd.DataFrame({ 'A': ['A0', 'A1', 'A2', 'A3','A4', 'A5', 'A6', 'A7','A8', 'A9', 'A10', 'A11'], 'B': ['B0', 'B1', 'B2', 'B3','B4', 'B5', 'B6', 'B7','B8', 'B9', 'B10', 'B11'], 'C': ['C0', 'C1', 'C2', 'C3','C4', 'C5', 'C6', 'C7','C8', 'C9', 'C10', 'C11'], 'D': ['D0', 'D1', 'D2', 'D3','D4', 'D5', 'D6', 'D7','D8', 'D9', 'D10', 'D11']}) print (df) new_df_drop_t = df.set_index('A',drop=True, append=False, inplace=False, verify_integrity=False) print (new_df_drop_t) new_df_drop_f = df.set_index('A',drop=False, append=False, inplace=False, verify_integrity=False) print (new_df_drop_f) ''' 輸出結果: A B C D 0 A0 B0 C0 D0 1 A1 B1 C1 D1 2 A2 B2 C2 D2 3 A3 B3 C3 D3 4 A4 B4 C4 D4 5 A5 B5 C5 D5 6 A6 B6 C6 D6 7 A7 B7 C7 D7 8 A8 B8 C8 D8 9 A9 B9 C9 D9 10 A10 B10 C10 D10 11 A11 B11 C11 D11 B C D A A0 B0 C0 D0 A1 B1 C1 D1 A2 B2 C2 D2 A3 B3 C3 D3 A4 B4 C4 D4 A5 B5 C5 D5 A6 B6 C6 D6 A7 B7 C7 D7 A8 B8 C8 D8 A9 B9 C9 D9 A10 B10 C10 D10 A11 B11 C11 D11 A B C D A A0 A0 B0 C0 D0 A1 A1 B1 C1 D1 A2 A2 B2 C2 D2 A3 A3 B3 C3 D3 A4 A4 B4 C4 D4 A5 A5 B5 C5 D5 A6 A6 B6 C6 D6 A7 A7 B7 C7 D7 A8 A8 B8 C8 D8 A9 A9 B9 C9 D9 A10 A10 B10 C10 D10 A11 A11 B11 C11 D11 '''
# append的使用 import pandas as pd df = pd.DataFrame({ 'A': ['A0', 'A1', 'A2', 'A3','A4', 'A5', 'A6', 'A7','A8', 'A9', 'A10', 'A11'], 'B': ['B0', 'B1', 'B2', 'B3','B4', 'B5', 'B6', 'B7','B8', 'B9', 'B10', 'B11'], 'C': ['C0', 'C1', 'C2', 'C3','C4', 'C5', 'C6', 'C7','C8', 'C9', 'C10', 'C11'], 'D': ['D0', 'D1', 'D2', 'D3','D4', 'D5', 'D6', 'D7','D8', 'D9', 'D10', 'D11']}) new_df_append_t = df.set_index('A',drop=True, append=True, inplace=False, verify_integrity=False) print (new_df_append_t) new_df_append_f = df.set_index('A',drop=True, append=False, inplace=False, verify_integrity=False) print (new_df_append_f) ''' 輸出結果: B C D A 0 A0 B0 C0 D0 1 A1 B1 C1 D1 2 A2 B2 C2 D2 3 A3 B3 C3 D3 4 A4 B4 C4 D4 5 A5 B5 C5 D5 6 A6 B6 C6 D6 7 A7 B7 C7 D7 8 A8 B8 C8 D8 9 A9 B9 C9 D9 10 A10 B10 C10 D10 11 A11 B11 C11 D11 B C D A A0 B0 C0 D0 A1 B1 C1 D1 A2 B2 C2 D2 A3 B3 C3 D3 A4 B4 C4 D4 A5 B5 C5 D5 A6 B6 C6 D6 A7 B7 C7 D7 A8 B8 C8 D8 A9 B9 C9 D9 A10 B10 C10 D10 A11 B11 C11 D11 '''
# inplace的使用,這裡我也沒搞懂為啥輸出None
df = pd.DataFrame({ 'A': ['A0', 'A1', 'A2', 'A3','A4', 'A5', 'A6', 'A7','A8', 'A9', 'A10', 'A11'],
'B': ['B0', 'B1', 'B2', 'B3','B4', 'B5', 'B6', 'B7','B8', 'B9', 'B10', 'B11'],
'C': ['C0', 'C1', 'C2', 'C3','C4', 'C5', 'C6', 'C7','C8', 'C9', 'C10', 'C11'],
'D': ['D0', 'D1', 'D2', 'D3','D4', 'D5', 'D6', 'D7','D8', 'D9', 'D10', 'D11']})
new_df_inplace_t = df.set_index('A', drop=True, append=False, inplace=True, verify_integrity=False)
print (new_df_inplace_t)
print (type(new_df_inplace_t))
df = pd.DataFrame({ 'A': ['A0', 'A1', 'A2', 'A3','A4', 'A5', 'A6', 'A7','A8', 'A9', 'A10', 'A11'],
'B': ['B0', 'B1', 'B2', 'B3','B4', 'B5', 'B6', 'B7','B8', 'B9', 'B10', 'B11'],
'C': ['C0', 'C1', 'C2', 'C3','C4', 'C5', 'C6', 'C7','C8', 'C9', 'C10', 'C11'],
'D': ['D0', 'D1', 'D2', 'D3','D4', 'D5', 'D6', 'D7','D8', 'D9', 'D10', 'D11']})
new_df_inplace_f = df.set_index('A', drop=True, append=False, inplace=False, verify_integrity=False)
print (new_df_inplace_f)
'''
None
<class 'NoneType'>
B C D
A
A0 B0 C0 D0
A1 B1 C1 D1
A2 B2 C2 D2
A3 B3 C3 D3
A4 B4 C4 D4
A5 B5 C5 D5
A6 B6 C6 D6
A7 B7 C7 D7
A8 B8 C8 D8
A9 B9 C9 D9
A10 B10 C10 D10
A11 B11 C11 D11
'''
reset_index():
函式原型:DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill='')
引數解釋:
level:int、str、tuple或list,預設無,僅從索引中刪除給定級別。預設情況下移除所有級別。控制了具體要還原的那個等級的索引
drop:drop為False則索引列會被還原為普通列,否則會丟失
inplace:預設為false,適當修改DataFrame(不要建立新物件)
col_level:int或str,預設值為0,如果列有多個級別,則確定將標籤插入到哪個級別。預設情況下,它將插入到第一級。
col_fill:物件,預設‘’,如果列有多個級別,則確定其他級別的命名方式。如果沒有,則重複索引名
注:reset_index還原分為兩種型別,第一種是對原DataFrame進行reset,第二種是對使用過set_index()函式的DataFrame進行reset
第一種:
# 一般情況下只使用到drop,這裡只演示drop的使用
import pandas as pd
df = pd.DataFrame({ 'A': ['A0', 'A1', 'A2', 'A3','A4', 'A5', 'A6', 'A7','A8', 'A9', 'A10', 'A11'],
'B': ['B0', 'B1', 'B2', 'B3','B4', 'B5', 'B6', 'B7','B8', 'B9', 'B10', 'B11'],
'C': ['C0', 'C1', 'C2', 'C3','C4', 'C5', 'C6', 'C7','C8', 'C9', 'C10', 'C11'],
'D': ['D0', 'D1', 'D2', 'D3','D4', 'D5', 'D6', 'D7','D8', 'D9', 'D10', 'D11']})
print (df)
newdf = df.set_index('A',drop=True, append=False, inplace=False, verify_integrity=False)
# 這裡的drop必需為True,否則會報錯ValueError: cannot insert A, already exists(意思是...只可意會不可言傳哈哈)
print (newdf)
new_reset_index = newdf.reset_index(drop=False) #索引列會被還原為普通列
print (new_reset_index)
new_reset_index = newdf.reset_index(drop=True) #索引回被直接刪除
print (new_reset_index)
'''
輸出結果:
A B C D
0 A0 B0 C0 D0
1 A1 B1 C1 D1
2 A2 B2 C2 D2
3 A3 B3 C3 D3
4 A4 B4 C4 D4
5 A5 B5 C5 D5
6 A6 B6 C6 D6
7 A7 B7 C7 D7
8 A8 B8 C8 D8
9 A9 B9 C9 D9
10 A10 B10 C10 D10
11 A11 B11 C11 D11
B C D
A
A0 B0 C0 D0
A1 B1 C1 D1
A2 B2 C2 D2
A3 B3 C3 D3
A4 B4 C4 D4
A5 B5 C5 D5
A6 B6 C6 D6
A7 B7 C7 D7
A8 B8 C8 D8
A9 B9 C9 D9
A10 B10 C10 D10
A11 B11 C11 D11
A B C D
0 A0 B0 C0 D0
1 A1 B1 C1 D1
2 A2 B2 C2 D2
3 A3 B3 C3 D3
4 A4 B4 C4 D4
5 A5 B5 C5 D5
6 A6 B6 C6 D6
7 A7 B7 C7 D7
8 A8 B8 C8 D8
9 A9 B9 C9 D9
10 A10 B10 C10 D10
11 A11 B11 C11 D11
B C D
0 B0 C0 D0
1 B1 C1 D1
2 B2 C2 D2
3 B3 C3 D3
4 B4 C4 D4
5 B5 C5 D5
6 B6 C6 D6
7 B7 C7 D7
8 B8 C8 D8
9 B9 C9 D9
10 B10 C10 D10
11 B11 C11 D11
'''
第二種:
# 一般情況下只使用到drop,這裡只演示drop的使用
import pandas as pd
df = pd.DataFrame({ 'A': ['A0', 'A1', 'A2', 'A3','A4', 'A5', 'A6', 'A7','A8', 'A9', 'A10', 'A11'],
'B': ['B0', 'B1', 'B2', 'B3','B4', 'B5', 'B6', 'B7','B8', 'B9', 'B10', 'B11'],
'C': ['C0', 'C1', 'C2', 'C3','C4', 'C5', 'C6', 'C7','C8', 'C9', 'C10', 'C11'],
'D': ['D0', 'D1', 'D2', 'D3','D4', 'D5', 'D6', 'D7','D8', 'D9', 'D10', 'D11']})
print (df)
new_reset_index = df.reset_index(drop=False) # 原有的索引不變新增列名index,同時在新列上重置索引
print (new_reset_index)
new_reset_index = df.reset_index(drop=True) # 在原有的索引列重置索引,不再另外新增新列。
print (new_reset_index)
'''
輸出結果:
A B C D
0 A0 B0 C0 D0
1 A1 B1 C1 D1
2 A2 B2 C2 D2
3 A3 B3 C3 D3
4 A4 B4 C4 D4
5 A5 B5 C5 D5
6 A6 B6 C6 D6
7 A7 B7 C7 D7
8 A8 B8 C8 D8
9 A9 B9 C9 D9
10 A10 B10 C10 D10
11 A11 B11 C11 D11
index A B C D
0 0 A0 B0 C0 D0
1 1 A1 B1 C1 D1
2 2 A2 B2 C2 D2
3 3 A3 B3 C3 D3
4 4 A4 B4 C4 D4
5 5 A5 B5 C5 D5
6 6 A6 B6 C6 D6
7 7 A7 B7 C7 D7
8 8 A8 B8 C8 D8
9 9 A9 B9 C9 D9
10 10 A10 B10 C10 D10
11 11 A11 B11 C11 D11
A B C D
0 A0 B0 C0 D0
1 A1 B1 C1 D1
2 A2 B2 C2 D2
3 A3 B3 C3 D3
4 A4 B4 C4 D4
5 A5 B5 C5 D5
6 A6 B6 C6 D6
7 A7 B7 C7 D7
8 A8 B8 C8 D8
9 A9 B9 C9 D9
10 A10 B10 C10 D10
11 A11 B11 C11 D11
'''