1. 程式人生 > >資料缺失值填補

資料缺失值填補

缺失值填充方法包括簡單填充、屬性填充和例項填充三種類型,本文主要研究屬性填充方式。

填充依賴原始資料的單一或少量屬性維度,利用屬性間的關係或屬性潛在的規則對缺失值進行填充。

常用的屬性填充方法有:基於迴歸分析、資訊增益、灰色預測的方法和EM 演算法等。

基於迴歸分析的填充方法通過擬合迴歸數學模型計算缺失值,該方法僅適用於滿足確定數學模型的資料集;基於資訊增益的方法,依據與缺失資料關聯密切的屬性對缺失值進行填充,該方法針對標稱型資料效果良好,但不適用於數值型資料;

序列缺失資料的灰插值推理方法通過引入灰色預測模型擬合單屬性函式,插值填充缺失值,取得了良好的效果,然而該演算法限制了訓練模型,可伸縮性不強;

基於EM 模型的填充方法認為資料服從含參分佈,演算法經過多次迭代收斂填充缺失資料,得到的填充效果良好但迭代方式很大程度地加大了演算法複雜性,限制了方法的實際應用。