1. 程式人生 > >資料預處理的過程

資料預處理的過程

1.資料預處理的原因

因為挖掘中的資料存在不完整,不一致,含噪聲錯誤的情況。

2.資料預處理包含的步驟

2.1 資料彙總

2.2 資料清理

2.3資料整合和變換

資料集成合並多個數據源中的資料,存放在一個一致的資料儲存中。 資料變換將資料轉換或統一成適合挖掘的形式。 可能包含如下內容:
  1. 光滑:去掉資料中的噪聲。
  2. 聚集:對資料進行彙總或聚集。
  3. 資料泛化:使用概念對資料屬性進行分層。
  4. 規範化:將屬性資料按比例縮放,使之落入到一個小的特定區間。
  5. 屬性構造:可以構造新的屬性並新增到屬性集中,以幫助資料探勘。

2.4資料規約

資料規約技術可以用來得到資料集的規約表示,它小的多,但仍接近保持原資料的完整性。 資料規約的策略如下: (1)資料立方體聚集。 (2)屬性子集選擇:可以檢測並刪除不相關,弱相關或冗餘的屬性或維。 (3)維度規約:使用編碼機制減少資料集的規模。 (4)數值規約:用替代的,較小的資料表示替換或估計資料。 (5)離散化和概念分成產生:屬性的原始資料值用區間值或較高層的概念替換。