1. 程式人生 > >Pyhton 中的Scale 和Normalization(正則化)

Pyhton 中的Scale 和Normalization(正則化)

一、Scale包括兩部分:Standardization(標準化)和Centering(歸一化)

      1、Standardization:

        newX = (X- 均值) / 標準差(standard deviation), newX 的均值=0,方差= 1,可用於發現離群點,Python中計算函式為preprocessing.scale和preprocessing.StandardScale,區別在於preprocessing.StandardScale可以儲存測試集上的均值、標準差,從而在訓練集做一樣的處理,

         2、Centering:

二、Normalization(正則化):正則化的過程是將每個樣本縮放到單位範數(每個樣本的範數為1),可通過preprocessing.normalize()或preprocessing.Normalizer()進行轉換。preprocessing.normalize()中的引數norm可以選擇不同的正規化標準(l1,l2,max)

       p-範數的計算公式:||X||p=(|x1|^p+|x2|^p+...+|xn|^p)^1/p,l1,l2正規化分別指p=1或p=2的結果

       Standardization(標準化)和Centering(歸一化)處理後的結果沒有太大差別,建議採用標準化,採用梯度下降時一般用歸一化,在文字分類和聚類是採用Normalization(正則化)。