1. 程式人生 > >pandas 基本操作

pandas 基本操作

元素 概念 轉換 array list dex 增加 兩個 重要

1. 一維數據結構Series

a. 概念:Series 是pandas 的一維數據結構,有重要的兩個屬性 index 和values

b. 初始化: 可以通過 python 的 List 、dict 、np.array 初始化

如果使用np.array或者python 的list 創建 Series 會得到其index 是默認的 0,1,2 這樣的數字

>>> s = pd.Series([1,2,3])

>>> s.index

RangeIndex(start=0, stop=3, step=1)

如果使用 python 的dict 來創建的 Series 其 index 對應的是 dict 的key

s2 = pd.Series({‘1‘:1,‘a‘:2,3:3})

>>> s2.index

Index([3, u‘1‘, u‘a‘], dtype=‘object‘)

c. 元素訪問類似 dict 訪問

s[0] // 訪問第一個元素

s[‘a’]// 訪問列名為a的元素

s.a // 訪問列名為a的元素

s[s>4]// 返回大於4的元素

d. 轉換dict 、np.array

s.values 或者 s. as_matrix()

s.to_dict()

2. 二維數據dataframe

a.常用的讀入方法

1) 內存讀入:pd.read_clipboard()

2) 文件讀入:pd.read_csv(path)

b. 列操作

(1)查看包含的所有的列的列名df.columns

(2)過濾掉多個列,返回一個新的dataframe

df_new = pd.DataFrame(df,columns=[‘id‘,‘section_id‘,‘start_road_id‘])

(3)過濾一個列

df.id 或 df[‘id’]

(4)增加一個列並賦初值

df[‘new_ids‘]=1 或 df[‘new_ids‘]=np.arange(0,len(df)) (5) 增加一列,並賦初值,只給部分行填充數據

df[‘new_id2‘]=pd.Series([200,300],index=[2,3]) # 只給第2,3行填充了數據,其余的數據為NAN

pandas 基本操作