pandas筆記
阿新 • • 發佈:2021-06-11
1. Pandas的基本資料結構和使用
Series的建立
>>>import numpy as np
>>>import pandas as pd
>>>s=pd.Series([1,2,3,np.nan,44,1]) # np.nan建立一個缺失數值
>>>s # 若未指定,Series會自動建立index,此處自動建立索引0-5
0 1.0
1 2.0
2 3.0
3 NaN
4 44.0
5 1.0
dtype: float64
DataFrame的建立
>>>dates=pd.date_range('20170101',periods=6)
>>>dates
DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
'2017-01-05', '2017-01-06'],
dtype='datetime64[ns]', freq='D')
>>>df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])
>>>df
a b c d
2017-01-01 -1.993447 1.272175 -1.578337 -1.972526
2017-01-02 0.092701 -0.503654 -0.540655 -0.126386
2017-01-03 0.191769 -0.578872 -1.693449 0.457891
2017-01-04 2.121120 0.521884 -0.419368 -1.916585
2017-01-05 1.642063 0.222134 0.108531 -1.858906
2017-01-06 0.636639 0.487491 0.617841 -1.597920
DataFrame可以跟Numpy一樣根據索引取出其中的資料,只是DataFrame索引方式更加多樣化。DataFrame不僅可以根據預設的行列編號來索引,還可以根據標籤序列來索引。
還可以採用字典的方式建立DataFrame:
>>>df2=pd.DataFrame({'a':1,'b':'hello kitty','c':np.arange(2),'d':['o','k']})
>>>df2
a b c d
0 1 hello kitty 0 o
1 1 hello kitty 1 k
對於DataFrame的一些屬性也可以採用相應的方法檢視
dtype # 檢視資料型別
index # 檢視行序列或者索引
columns # 檢視各列的標籤
values # 檢視資料框內的資料,也即不含表頭索引的資料
describe # 檢視資料的一些資訊,如每一列的極值,均值,中位數之類的,只能對數值型資料統計資訊
transpose # 轉置,也可用T來操作
sort_index # 排序,可按行或列index排序輸出
sort_values # 按資料值來排序
一些例子
>>>df2.dtypes
a int64
b object
c int64
d object
dtype: object
>>>df2.index
RangeIndex(start=0, stop=2, step=1)
>>>df2.columns
Index(['a', 'b', 'c', 'd'], dtype='object')
>>>df2.values
array([[1, 'hello kitty', 0, 'o'],
[1, 'hello kitty', 1, 'k']], dtype=object)
>>>df2.describe # 只能對數值型資料統計資訊
a c
count 2.0 2.000000
mean 1.0 0.500000
std 0.0 0.707107
min 1.0 0.000000
25% 1.0 0.250000
50% 1.0 0.500000
75% 1.0 0.750000
max 1.0 1.000000
>>>df2.T
0 1
a 1 1
b hello kitty hello kitty
c 0 1
d o k
>>>df2.sort_index(axis=1,ascending=False) # axis=1 按列標籤從大到小排列
d c b a
0 o 0 hello kitty 1
1 k 1 hello kitty 1
>>>df2.sort_index(axis=0,ascending=False) # 按行標籤從大到小排序
a b c d
1 1 hello kitty 1 k
0 1 hello kitty 0 o
>>>df2.sort_values(by="c",ascending=False) # 按c列的值從大到小排序
a b c d
1 1 hello kitty 1 k
0 1 hello kitty 0 o
2. 從DataFrame中篩選取出目的資料
從DataFrame中取出目的資料方法有多種,一般常用的有:
-
-
直接根據索引選取
-
-
-
根據標籤選取(縱向選擇列):loc
-
-
-
根據序列(橫向選擇行): iloc
-
-
-
組合使用標籤序列來選取特定位置的資料: ix
-
-
-
通過邏輯判斷篩選
-
簡單選取
>>>import numpy as np
>>>import pandas as pd
>>>dates=pd.date_range('20170101',periods=6)
>>>df=pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns=['a','b','c','d'])
>>>df
a b c d
2017-01-01 0 1 2 3
2017-01-02 4 5 6 7
2017-01-03 8 9 10 11
2017-01-04 12 13 14 15
2017-01-05 16 17 18 19
2017-01-06 20 21 22 23
>>>df['a'] # 根據表籤直接選取a列,也可用df.a,結果相同
2017-01-01 0
2017-01-02 4
2017-01-03 8
2017-01-04 12
2017-01-05 16
2017-01-06 20
Freq: D, Name: a, dtype: int64
>>>df[0:3] # 選擇前3行,也可用行標籤 df['2017-01-01':'2017-01-03'],結果相同,但是無法用此法選擇多列
a b c d
2017-01-01 0 1 2 3
2017-01-02 4 5 6 7
2017-01-03 8 9 10 11
loc使用顯式的行標籤來選取資料
DataFrame行的表示方式有兩種,一種是通過顯式的行標籤來索引,另一種是通過預設隱式的行號來索引。loc方法是通過行標籤來索引選取目標行,可以配合列標籤來選取特定位置的資料。
>>>df.loc['2017-01-01':'2017-01-03']
a b c d
2017-01-01 0 1 2 3
2017-01-02 4 5 6 7
2017-01-03 8 9 10 11
>>>df.loc['2017-01-01',['a','b']] # 選取特定行的a,b列
a 0
b 1
Name: 2017-01-01 00:00:00, dtype: int64
iloc使用隱式的行序列號來選取資料
使用iloc可以搭配列序列號來更簡單的選取特定位點的資料
>>>df.iloc[3,1]
13
>>>df.iloc[1:3,2:4]
c d
2017-01-02 6 7
2017-01-03 10 11
ix利用ix可以混用顯式標籤與隱式序列號
loc只能使用顯式標籤來選取資料,而iloc只能使用隱式序列號來選取資料,ix則能將二者結合起來使用。
>>> df.ix[3:5,['a','b']]
a b
2017-01-04 12 13
2017-01-05 16 17
使用邏輯判斷來選取資料
>>>df
a b c d
2017-01-01 0 1 2 3
2017-01-02 4 5 6 7
2017-01-03 8 9 10 11
2017-01-04 12 13 14 15
2017-01-05 16 17 18 19
2017-01-06 20 21 22 23
>>>df[df['a']>5] # 等價於df[df.a>5]
a b c d
2017-01-03 8 9 10 11
2017-01-04 12 13 14 15
2017-01-05 16 17 18 19
2017-01-06 20 21 22 23
3. Pandas設定特定位置值
>>>import numpy as np
>>>import pandas as pd
>>>dates=pd.date_range('20170101',periods=6)
>>>datas=np.arange(24).reshape((6,4))
>>>columns=['a','b','c','d']
>>>df=pd.DataFra me(data=datas,index=dates,colums=columns)
>>>df.iloc[2,2:4]=111 # 將第2行2,3列位置的資料改為111
a b c d
2017-01-01 0 1 2 3
2017-01-02 4 5 6 7
2017-01-03 8 9 111 111
2017-01-04 12 13 14 15
2017-01-05 16 17 18 19
2017-01-06 20 21 22 23
>>>df.b[df['a']>10]=0 # 等價於df.b[df.a>10] # 以a列大於10的數的位置為參考,改變b列相應行的數值為0
a b c d
2017-01-01 0 1 2 3
2017-01-02 4 5 6 7
2017-01-03 8 9 111 111
2017-01-04 12 0 14 15
2017-01-05 16 0 18 19
2017-01-06 20 0 22 23
>>>df['f']=np.nan # 新建f列並設定數值為np.nan
a b c d f
2017-01-01 0 1