1. 程式人生 > >Pandas大全(一直補充)3

Pandas大全(一直補充)3

1.python中pandas庫裡的read_table和read_csv的區別

他們的預設切割符號不一樣,其他,除了方法名不一樣,都一樣

       read_table預設是'\t'(也就是tab)切割資料集的;

       read_csv預設是','(也就是逗號)切割資料集的;

2.濾除缺失資料:dropna()函式

對於DataFrame,dropna()函式會丟掉所有含有空元素的資料:

但是可以指定how='all',這表示只有行裡的資料全部為空時才丟棄,例如:

如果想以同樣的方式按列丟棄,可以傳入axis=1,例如:

3.Pandas裡Groupby的apply用法

Pandas的Groupby函式即分組聚合函式,與SQL的Groupby有著異曲同工之妙,而我這裡記錄的是Groupby裡的apply函式用法,即針對每個分組進行相應的資料處理,如下圖簡單的分組求和:

4.Pandas裡Groupby的agg函式用法

agg函式傳入一個字典,鍵指對應的列名,值指聚合函式如{'sum', 'count', 'mean'}之類

而當需要在原資料的index上返回結果,可以使用pandas.Groupby.transform, 這樣可以將統計結果還原到組內每一條資料中

5.pandas的map

map只對一個序列而言的。

label_mapping = {"汽車": 1, "財經": 2, "科技": 3, "健康": 4, "體育":5, "教育": 6,"文化": 7,"軍事": 8,"娛樂": 9,"時尚": 0}
df_train['label'] = df_train['label'].map(label_mapping)
df_train.head()

將df_train中label標籤的值全部替換為數字1,2,3,4····等