pandas 基本操作
1. 一維數據結構Series
a. 概念:Series 是pandas 的一維數據結構,有重要的兩個屬性 index 和values
b. 初始化: 可以通過 python 的 List 、dict 、np.array 初始化
如果使用np.array或者python 的list 創建 Series 會得到其index 是默認的 0,1,2 這樣的數字
>>> s = pd.Series([1,2,3])
>>> s.index
RangeIndex(start=0, stop=3, step=1)
如果使用 python 的dict 來創建的 Series 其 index 對應的是 dict 的key
s2 = pd.Series({‘1‘:1,‘a‘:2,3:3})
>>> s2.index
Index([3, u‘1‘, u‘a‘], dtype=‘object‘)
c. 元素訪問類似 dict 訪問
s[0] // 訪問第一個元素
s[‘a’]// 訪問列名為a的元素
s.a // 訪問列名為a的元素
s[s>4]// 返回大於4的元素
d. 轉換dict 、np.array
s.values 或者 s. as_matrix()
s.to_dict()
2. 二維數據dataframe
a.常用的讀入方法
1) 內存讀入:pd.read_clipboard()
2) 文件讀入:pd.read_csv(path)
b. 列操作
(1)查看包含的所有的列的列名df.columns
(2)過濾掉多個列,返回一個新的dataframe
df_new = pd.DataFrame(df,columns=[‘id‘,‘section_id‘,‘start_road_id‘])
(3)過濾一個列
df.id 或 df[‘id’]
(4)增加一個列並賦初值
df[‘new_ids‘]=1 或 df[‘new_ids‘]=np.arange(0,len(df)) (5) 增加一列,並賦初值,只給部分行填充數據
df[‘new_id2‘]=pd.Series([200,300],index=[2,3]) # 只給第2,3行填充了數據,其余的數據為NAN
pandas 基本操作