1. 程式人生 > >資料探勘-資料預處理的簡單流程

資料探勘-資料預處理的簡單流程

此流程是一種簡單的寫法,在其他具體問題分析時,需有自己的分析方法,具體情況具體分析。

  1. 檢視train_data與test_data 的個特徵列的直方圖分佈情況,去掉分佈特差的特徵(分佈特別不一致的那種)。
    # 標準化後資料視覺化
    for col in data_minmax.columns:
    plt.figure()
    plt.title(col)
    seaborn.distplot(data_minmax[col], label=‘minmax’)
    seaborn.distplot(train[col], label=‘train’)
    seaborn.distplot(test[col], label=‘test’)
    plt.legend()
    # plt.show()
    plt.savefig(‘IMAGE/minmax_{}.jpg’.format(col))
  2. 對剩餘資料進行資料標準化
    preprocessing.minmaxsclar or Standard or minmax
    3.對某些特徵進行正太分佈處理,使其符合正太分佈

4.特徵選擇,剔除掉方差過小的特徵

  1. 嘗試選擇模型
  2. 進行模型的融合