四、Pandas小結（2）— 資料清洗 & 分箱操作

阿新 • • 發佈：2019-01-12

#資料清洗

# 一、處理缺失資料
import pandas as pd

log_data = pd.read_csv('log.csv')
log_data

log_data.isnull()

log_data['paused'].isnull()

# 取出volume不為空的資料
log_data[log_data['volume'].notnull()]

log_data.set_index(['time', 'user'], inplace=True)
log_data.sort_index(inplace=True)
log_data

log_data.fillna(0)

log_data.dropna()

log_data.ffill()#按之前的資料填充

log_data.bfill() #按之後的資料填充

# 二、資料變形
# 1、處理重複資料
data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'],
'k2': [1, 1, 2, 3, 3, 4, 4]})
data

#判斷資料是否重複
data.duplicated()

#去除重複資料
data.drop_duplicates()

data['v1'] = range(7)
data

#去除指定列的重複資料
data.drop_duplicates(['k1'])

data.drop_duplicates(['k1', 'k2'], keep='last')

# 2、使用函式或map轉化資料
data = pd.DataFrame({'food': ['bacon', 'pulled pork', 'bacon', 'Pastrami', 'corned beef', 'Bacon', 'pastrami', 'honey ham', 'nova lox'],
'ounces': [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
data

# 新增一列，用於指定食物的來源
meat_to_animal = {
'bacon': 'pig',
'pulled pork': 'pig',
'pastrami': 'cow',
'corned beef': 'cow',
'honey ham': 'pig',
'nova lox': 'salmon'
}
data

#使用map()
lowercased = data['food'].str.lower()
data['food'].str.lower()
data['animal'] = lowercased.map(meat_to_animal)
data

#使用方法
data['animal2'] = data['food'].map(lambda x : meat_to_animal[x.lower()])
data

# 3、替換值
data = pd.Series([1., -999., 2., -999., -1000., 3.])
data

import numpy as np

#將-999，-1000都替換為空值
data.replace([-999,-1000], np.nan)

data.replace({-999: np.nan, -1000:0})

# 4、離散化和分箱操作
#年齡資料
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]

# 分箱的邊界
bins = [18, 25, 35, 60, 100]

cats = pd.cut(ages, bins)
print(type(cats))

# Categorical物件
cats

#獲取分箱編碼
cats.codes

#返回分箱便捷索引
cats.categories

#統計箱中元素的個數
pd.value_counts(cats)

#帶標籤的分箱
group_names = ['Youth', 'YoungAdult', 'MiddleAged', 'Senior']
cats = pd.cut(ages, bins, labels = group_names)
cats
cats.get_values()

# 5、啞變數操作
df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'],
'data1': range(6)})
df

pd.get_dummies(df['key'])

# 5.向量化字串操作

data = {'Dave': '

[email protected]', 'Steve': '[email protected]', 'Rob': '[email protected]', 'Wes': np.nan}
data = pd.Series(data)
data

#字串列元素中是否包含子字串
data.str.contains('gmail')

#字串列切片操作
data.str[:5]

split_df = data.str.split('@', expand=True)
split_df

split_df = data.str.split('@')
split_df

split_df[0].str.cat(split_df[1], sep='@')

四、Pandas小結（2）— 資料清洗 & 分箱操作

四、Pandas小結（2）— 資料清洗 & 分箱操作

五、Pandas小結（3）— 資料合併及分組

【無私分享：從入門到精通ASP.NET MVC】從0開始，一起搭框架、做專案（2）建立資料庫和資料模型

Matlab矩陣處理小結（2）-讀資料求均值和中位數繪製errorbar圖

Pandas學習筆記（2）資料的處理方法

小白學 Python 資料分析（6）：Pandas （五）基礎操作（2）資料選擇

軟件工程綜合實踐階段小結（2）

畫一個皮卡丘項目小結（2）

多線程小結（2）

每日小結（2）

2018 年下半年全國大學英語四、六級考試（CET）考生須知

線程、進程（2）----- 從計算機物理層面分析

《人類簡史》十四、開啟未來（上）——智人的滅亡

四、服務消費（Ribbon）

作業系統第四章學習筆記（2）儲存器管理連續分配儲存管理方式

第四章儲存器管理（2）

資料結構之圖篇（2）：圖的基本操作深度和廣度遍歷

資料預處理（2）資料整合和資料變換資料規約

資料探索（2）資料特徵分析

Esper學習筆記四：EPL語法（2）

四、Pandas小結（2）— 資料清洗 & 分箱操作

相關推薦