1. 程式人生 > >大資料原理分析

大資料原理分析

第一是大資料的資料獲取方式:

資料清洗是將重複,多餘的資料篩選清除,將缺失的資料補全完整,將錯誤的資料糾正或者刪除;最後整理成我們可以進一步使用和加工的資料儲存到資料庫中。

所謂的資料清洗也就是ETL處理,包括抽取Extract,轉換TRANSFORM,載入LOAD這三大法寶。

資料清洗的步驟一般都包括:分析資料,缺失值處理,異常值處理,去重處理,噪音資料處理。