【讀書筆記】資料探勘導論(Introduction to Data Mining) 1
第二章 資料
2-1 資料型別
如下性質來描述屬性
(1) 相異性 = 和 ≠
(2) 序 <, <=, >, >=
(3) 加法
(4) 乘法從而定義四種類型 :標稱,序數,區間,比率
標稱:分類的(定性的)(= 和 ≠) 區分物件 如id等
序數:分類的 (< , >)如礦石硬度等
區間:定量的 (+, -) 值間差異有意義,如溫度
比率:定量的 (*, /)資料集的一般特性
維度 dimensionality:資料集中物件的屬性數量,維度過高的會出現維災難,從而在資料預處理中一般會對其進行降維處理,稱為 維歸約;
稀疏性 sparsity:物件的部分屬性值為0
解析度 resolution:不同分別率下獲取的資料表現出來的性質不一樣。
2-2 資料質量
資料測量和收集方面的質量問題
- 測量誤差和資料收集錯誤
- 噪聲和偽像
- 噪聲:常可用訊號或影象技術降低
- 偽像:確定性的失真,一組照片中同一個位置出現條紋
- 精度,偏倚,準確率
精度:重複測量值之間的接近程度 通常用標準差度量
偏倚:測量值與被測量間的偏差
準確率:測量值與實際值間的接近度 - 離群點:異常,異常值。注意與噪聲的區分,噪聲無意義,離群點可以是合法的資料物件或值
遺漏值:如選填的表格
處理:1. 直接刪除(慎重);2. 估計,插值,如連續的,最近鄰的平均值;3. 忽略不一致的值
- 重複資料:區分重複是否合法,從而去重
2-3 資料預處理
分為聚集,抽樣,維歸約,特徵子集選擇,特徵建立,離散化和二元化,變數變化等
抽樣:
簡單抽樣:有放回和無放回;分層抽樣
抽樣的樣本容量的確定:漸進抽樣,事先不確定,容量上升準確率趨於穩定。
維歸約:
通過建立新的屬性,將一些舊屬性合併在一起來降低維度。通過選擇舊屬性的子集得到新的屬性,這種維歸約叫特徵子集的選擇或特徵選擇。
維災難:維度增加,資料會越來越稀疏,分析困難
維歸約常用線性代數的技術:主成分分析PCA(待看),奇異值分解SVD
特徵子集的選擇:
降低維度的一種方法
冗餘特徵(重複),不相關特徵(無關)
處理冗餘特徵和不相關特徵的方法:
- 資料少:將所有可能的特徵子集作為輸入,選結果最好的
- 一般情況:嵌入,過濾,包裝
嵌入 embedded approach: 與具體演算法有關,如構造決策樹分類器演算法
過濾 filter approach和包裝 wrapper approach兩者唯一不同在於特徵選擇過程中使用不同的特徵子集的評估方法
特徵選擇過程:
- 子集評估度量:試圖預測實際資料探勘演算法在給定的屬性集上執行的效果
- 控制新特徵子集產生的搜尋策略
- 停止搜尋的判斷
- 驗證過程:特徵子集產生的結果是否比所有特徵產生的更好或至少一樣好