資料預處理 總結
阿新 • • 發佈:2020-08-10
1. 離散化
a) 無序變數離散化—— OneHotEncoder
b)有序變數離散化
等寬劃分:按照相同寬度將資料分成幾等份。缺點是受到異常值的影響比較大。 pandas.cut方法可以進行等寬劃分。
等頻劃分:將資料分成幾等份,每等份資料裡面的個數是一樣的。pandas.qcut方法可以進行等頻劃分。
聚類劃分:使用聚類演算法將資料聚成幾類,每一個類為一個劃分。
內容來自https://www.cnblogs.com/jiaxin359/p/8574510.html
內容來自https://www.cnblogs.com/xingnie/p/12264505.html
2. 缺失值處理
# 考慮全空才刪,還是空一個就刪
df.dropna(how = ,axis = )
# 用什麼(平均值)填充空值
df.fillna()
df['Exterior_Color'].fillna(method='ffill') #前向填補
df['Exterior_Color'].fillna(method='bfill') #後向填補
df.Mileage.fillna(df.Mileage.mean()) # 年齡這裡列 用均值填補
df.Mileage.fillna(df.Mileage.median()) #中位數填補
3. 重複值處理
df.xxx.drop_duplicates()
4. 異常值處理
# 剔除戶主姓名,戶主身份證號和年齡有缺失的樣本
df.dropna(axis = 0,how='any',subset=['戶主姓名','戶主身份證號','age'],inplace = True) #1代表列,0代表行,只要有缺失,就刪除這一行,基於三個變數