1. 程式人生 > >資料標準化常見問題與解決方案彙總

資料標準化常見問題與解決方案彙總

一、缺失值如何處理?

1 、缺失值定義?

1) 取值失敗,沒有對應的數值,屬於系統類缺失;

2) 計算過程中,影響計算(如除數為0),為了使計算能夠正常的進行,返回缺失值。該處屬於自定義的缺失值;

2、 對於缺失值,計算過程中的處理方案?

1)、如果缺失值的比例佔樣本的比例較少(低於10%),則可以採用均值、眾數、差值等方式進行填充。若在分箱過程中,則可以將該類缺失值,用分箱佔比做大的一組進行對映;

2)、如果缺失值的比例佔樣本比例較高(超過50%),則此類缺失值,不建議採用其他的數值進行填充。若在分箱過程中,則可以將該類缺失值,單獨為一個分組進行對映;

3)、如果缺失值,在業務邏輯上存在一定的有效性,則按照相應的業務情況進行處理;

 

二、分箱常見的方法有哪些?

1、等樣本法

此種方法主要考慮的是讓樣本分佈均勻,主要針對於樣本較少的常見可以採用此方法。進行初步分組,然後結合實際的需求進行下一步的合併與拆分,按照卡方法、決策樹、專家意見等方法進行合併

2、等間距法

 

3、離散變數