【數據挖掘課程】(2)數據
摘要
1.屬性和對象(attributes and objects)
2.數據集類型(types of data sets)
3.數據質量(data quality)
4.數據預處理(data preprocessing)
1.屬性和對象
屬性和對象構成了數據,在完成一個數據挖掘任務時,
-
數據(datas)=對象(objects)+屬性(attributes)
-
屬性的別稱
維度dimensions, 特征features, 變量variables
-
屬性的分類
標稱(nominal), 序數(ordinal), 區間(interval), 比例(ratio)
2.數據集類型
-
記錄(record)
(1) 包含諸多記錄的表格,每個對象有一系列屬性
(2) 文檔數據:
詞袋(bag-of-words)
索引矩陣
(3)切片數據(transaction data)
-
圖和網絡(graph and network)
(1) 萬維網 (world wide web)
每個網頁包含指向其他網頁的url,這樣的指向關系構成網絡
(2) 社交網絡 (social or information networks)
(3) 分子結構 (molecular structures)
-
其他
(1) 空間位置信息(spatial)
(2) 圖片(image)
(3) 多媒體(multimedia)
3.數據質量
-
數據的可能缺陷
(1)噪聲(noise)和極端值(outliers)
噪聲對正確的值產生改動: 比如電視上出現的雪花狀圖案
極端值: 在數據集中明顯偏離其他數據項的數據項,極端值可能是需要去除的噪聲,也可能是數據挖掘任務的目標
(2)缺值(missing value)
缺值的原因分為,數據未收集到(eg. 人拒絕提供年齡信息),或者數據項數值為空(eg. 兒童沒有年收入)
(3)值重復(duplicate data)
比如一個人有多個e-mail, 數據集中就會有該人的多條冗余記錄
-
怎樣補救數據集缺陷
(1)缺值處理: 去除這條記錄/給缺值一個估計值/分析時忽略缺值
(2)值重復: 合並冗余記錄
4.數據預處理
-
集成(aggregation)
把多個特征合並成一個特征,或把多個對象合並成一個對象。
集成後的數據有更少的變量,也更加穩定
-
抽樣(sampling)
抽樣所得的樣本一定要有代表性,足以代表整個數據集
-
降維(dimensionality Reduction)
-
(feature subset selection)
-
(feature creation)
-
(discretization and binarization)
-
【數據挖掘課程】(2)數據