1. 程式人生 > >時序預測歸一化

時序預測歸一化

在做預測問題時,當資料的量綱存在較大差異時,歸一化非常重要。以下問題是我遇到的:

1.多個維度的資料,是對每一個樣本進行歸一化?還是對每一個維度(屬性)歸一化

2.訓練集和測試集放在一起歸一化?還是分開歸一化?

問題1:

對每一個屬性進行歸一化,從sklearn的文件中提到:MinMaxScaler,This estimator scales and translates each feature individually such that it is in the given range on the training set.

在上一篇部落格中也使用了空氣汙染預測做了實驗。

問題2:在蒐集到的資料中,大部分都是將訓練集和測試集放在一起歸一化,可是這樣測試集就對模型有了影響,只要換了測試集訓練出來的模型就不一樣。當使用訓練好的模型去預測其他的資料集時,不知道是否合適。而且如果這樣的話,每次一更換測試集就需要將其餘訓練集放在一起重新歸一化,再去訓練新的模型。目前為了更好的結果,我採用的是這種方法。

也有人提到用歸一化訓練集的最大最小值來歸一化預測值,這樣的話預測值就會被限定在一個範圍,這樣做的原因是:訓練集和測試集應該是獨立同分布的,有理由認為最大值和最小值就出現在訓練集中。但在用python實現時,發現這樣操作並不是很方便。