Pandas大全(一直補充)3
阿新 • • 發佈:2018-12-31
1.python中pandas庫裡的read_table和read_csv的區別
他們的預設切割符號不一樣,其他,除了方法名不一樣,都一樣
read_table預設是'\t'(也就是tab)切割資料集的;
read_csv預設是','(也就是逗號)切割資料集的;
2.濾除缺失資料:dropna()函式
對於DataFrame,dropna()函式會丟掉所有含有空元素的資料:
但是可以指定how='all',這表示只有行裡的資料全部為空時才丟棄,例如:
如果想以同樣的方式按列丟棄,可以傳入axis=1,例如:
3.Pandas裡Groupby的apply用法
Pandas的Groupby函式即分組聚合函式,與SQL的Groupby有著異曲同工之妙,而我這裡記錄的是Groupby裡的apply函式用法,即針對每個分組進行相應的資料處理,如下圖簡單的分組求和:
4.Pandas裡Groupby的agg函式用法
agg函式傳入一個字典,鍵指對應的列名,值指聚合函式如{'sum', 'count', 'mean'}之類
而當需要在原資料的index上返回結果,可以使用pandas.Groupby.transform, 這樣可以將統計結果還原到組內每一條資料中
5.pandas的map
map只對一個序列而言的。
label_mapping = {"汽車": 1, "財經": 2, "科技": 3, "健康": 4, "體育":5, "教育": 6,"文化": 7,"軍事": 8,"娛樂": 9,"時尚": 0}
df_train['label'] = df_train['label'].map(label_mapping)
df_train.head()
將df_train中label標籤的值全部替換為數字1,2,3,4····等