1. 程式人生 > >資料預處理--持久化預處理後的資料

資料預處理--持久化預處理後的資料

在做大型專案時,不要每次都做資料預處理!

  一般是一步一步來,1.做完預處理再做訓練,2.做完訓練再預測,3.然後根據預測的結果迭代調節模型和資料(交叉驗證、過/欠取樣等)。
  由於需要訓練模型預測unknown值,預處理過程的時間代價比較大。因此將預處理後的資料持久化,儲存到檔案中,之後的學習模型直接讀取檔案資料進行訓練預測,無須再預處理。

  簡單的表述就是,將需要引數的部分和不需要引數的部分完全解耦合;將引數型別不同的部分解耦合。
  例如:將預處理的部分和網路的部分隔離開來。