1. 程式人生 > >python資料探勘——資料預處理

python資料探勘——資料預處理

在資料探勘中 海量的資料存在大量的不完整(有缺失值)、不一致 有異常的資料,嚴重影響到資料的挖掘的建模過程執行的效率。甚至導致挖掘的資料結果偏差甚大。資料探勘預處理的過程中主要包括:資料清洗,資料整合,資料變換,資料規約。

處理過程如圖:

4.1 資料的清洗主要是對原始資料集中的無關資料 重複資料 平滑噪聲資料 篩選掉與挖掘資料無關的資料,處理缺失值、異常值等。

4.1.1 缺失值得處理:包括三張方式:1 刪除記錄 2 資料補差 3 不處理:

重點介紹拉格朗日插值法 牛頓插值法 還有Hermite插值法 分段插值 樣條插值法。