Sklearn.processing：scale, StandardScaler, MinMaxScaler, Normalizer

阿新 • • 發佈：2019-01-13

一、標準化
去除均值和方差縮放：通過(X-X_mean)/std計算每個屬性(每列)，進而使所有資料聚集在0附近，方差為1.

(1)、sklearn.preprocessing.scale()
直接將給定資料進行標準化

from sklearn import preprocessing
import numpy as np
X = np.array([[ 1., -1.,  2.],[ 2.,  0.,  0.],[ 0.,  1., -1.]])
X_scaled = preprocessing.scale(X)

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

X_scaled.mean(axis=0)
array([ 0.,  0.,  0.])

X_scaled.std(axis=0)
array([ 1.,  1.,  1.])

(2)、sklearn.preprocessing.StandardScaler()
可儲存訓練集中的均值、方差引數，然後直接用於轉換測試集資料。

scaler = preprocessing.StandardScaler().fit(X)
scaler.transform(X)  

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

scaler.mean_
array([ 1.        ,  0.        ,  0.33333333])

scaler.var_
array([ 0.66666667,  0.66666667,  1.55555556])

二、縮放到指定範圍
將屬性縮放到一個指定的最大和最小值（通常是1-0）之間，這樣處理可對方差非常小的屬性增強其穩定性，也可維持稀疏矩陣中為0的條目。
preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True)
計算公式：
X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_scaled = X_std * (max - min) + min
其中
feature_range : tuple (min, max), default=(0, 1)

minmaxscaler = preprocessing.MinMaxScaler().fit(X)
minmaxscaler.transform(X)

array([[ 0.5       ,  0.        ,  1.        ],
       [ 1.        ,  0.5       ,  0.33333333],
       [ 0.        ,  1.        ,  0.        ]])

minmaxscaler.scale_
array([ 0.5       ,  0.5       ,  0.33333333])

 minmaxscaler.min_ 
 array([ 0.        ,  0.5       ,  0.33333333])

也可直接應用fit_transform(X)實現fit和transform功能。

三、正則化（這個是對行進行正則化）
對每個樣本計算其p-範數，再對每個元素除以該範數，這使得每個處理後樣本的p-範數（l1-norm,l2-norm）等於1。如果後續要使用二次型等方法計算兩個樣本之間的相似性會有用。
preprocessing.Normalizer(norm=’l2’, copy=True)

norm：可以為l1、l2或max，預設為l2

若為l1時，樣本各個特徵值除以各個特徵值的絕對值之和

若為l2時，樣本各個特徵值除以各個特徵值的平方之和

若為max時，樣本各個特徵值除以樣本中特徵值最大的值

from sklearn import preprocessing
import numpy as np
X = np.array([[ 1., -1.,  2.],[ 2.,  0.,  0.],[ 0.,  1., -1.]])
scaler= preprocessing.Normalizer(norm='l1').fit(X)
X_scaled = scaler.transform(X)
print(X)
print(X_scaled)


[[ 1. -1.  2.]
 [ 2.  0.  0.]
 [ 0.  1. -1.]]
[[ 0.25 -0.25  0.5 ]
 [ 1.    0.    0.  ]
 [ 0.    0.5  -0.5 ]]

轉自：https://blog.csdn.net/u013402321/article/details/79043402

Sklearn.processing：scale, StandardScaler, MinMaxScaler, Normalizer

一、標準化去除均值和方差縮放：通過(X-X_mean)/std計算每個屬性(每列)，進而使所有資料聚集在0附近，方差為1. (1)、sklearn.preprocessing.scale() 直接將給定資料進行標準化 from sklearn import preprocess

Sklearn資料預處理：scale, StandardScaler, MinMaxScaler, Normalizer

問題：怎麼讓一組資料平均數為0，方差為1 有一組資料 X: {x1,x2,x3,.....,xn} (1) 設其平均值為：E(X) = μ (2) 設其方差為：D(X) =

sklearn.preprocessing之StandardScaler與Normalizer

一、標準化（Z-Score），或者去除均值和方差縮放公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。實現時，有兩種不

sklearn學習：make_multilabel_classification——多標簽數據集方法

矩陣 hat nts ger form pre returns sting matrix Generate a random multilabel classification problem. For each sample, the generative process

雲端儲存的未來：Scale Up還是Scale Out？

雲端儲存的幾十年發展歷程，其計算架構模型，也從Scale Up走向Scale Out。但是展望未來數字世界的海量需求，目前流行的模型還能夠持續滿足嗎？本文通過對雲端儲存歷史的回顧，及對Scale Up和Scale Out兩種擴充套件模型的詮釋，來揭開雲端儲存的未來模

[更新ing]sklearn(八)：quantifying the quality of predictions

評估模型預測效果的方法 1、利用模型自帶的score method來評估擬合model的預測效果； 2、利用cross validation來評估擬合model的預測效果，可以通過選用不同的scoring parameter來評估不同型別模型的預測效果； 3、利

sklearn(九)：Model persistence

#way1 利用pickle.dump()將訓練好的分類器序列化（轉為二進位制），利用 pickle.loads()反序列化； >>> from sklearn import svm >>> from sklearn imp

sklearn(十三)：Kernel ridge regression

The form of the model learned by KernelRidge is identical to support vector regression (SVR). However, different loss functions are

sklearn庫：分類、迴歸、聚類、降維、模型優化、文字預處理實現用例（趕緊收藏）

分類演算法 # knn演算法 from sklearn.neighbors import KNeighborsClassifier knn = KNeighborsClassifier() ''' __init__函式 def __init__(self, n_neighbors=5,

Tkinter 元件詳解（十）：Scale

Tkinter 元件詳解之Scale Scale（刻度）元件看起來像是一個帶資料的 Scrollbar（滾動條）元件，但事實上它們是不同的兩個東東。Scale 元件允許用於通過滑動滑塊來選擇一個範圍內的數字。你可以控制該元件的最大值、最小值，以及解析度。何時使用 Scale 元件？

sklearn實戰：糖尿病預測（knn演算法）

%matplotlib inline import matplotlib.pyplot as plt import numpy as np import pandas as pd # 載入資料 data = pd.read_csv('datas

sklearn-Cross_Validation1：knn演算法中不同k值對應的模型準確率

""" @author: Vincnet_Sheng @file: sklearn-cross_validation-1.py @time: 2018/1/4 0004 下午 8:17 #-*- coding: utf-8 -* """ # target: 1） cros

sklearn實戰：對文件進行聚類分析（KMeans演算法）

%matplotlib inline import matplotlib.pyplot as plt import numpy as np from time import time from sklearn.datasets import load_fi

sklearn-學習：Dimensionality reduction(降維)-（feature selection）特徵選擇

本文主要對對應文件的內容進行簡化（以程式碼示例為主）及漢化對應文件位置：http://scikit-learn.org/stable/modules/feature_selection.html#feature-selection feature selection

Stream Processing：Apache Flink快照(snapshot)原理

本文將要講解的是Apache Flink分散式流處理的輕量非同步的快照原理。網上已經有幾篇相關的博文，而本文的不同之處在於，它不是論文的純粹翻譯（論文地址），而是用自己的語言結合自己的理解對其原理的闡述。本文將同下面幾個方面講解：什麼是快照？為什麼需要快照？跟其他

sklearn實戰：使用knn進行迴歸擬合

%matplotlib inline import matplotlib.pyplot as plt import numpy as np # 生成訓練樣本 n_dots = 40 X = 5 * np.random.rand(n_dots, 1) y

Caffe層系列：Scale Layer

Scale Layer是輸入進行縮放和平移，常常出現在BatchNorm歸一化後首先我們先看一下 ScaleParameter message ScaleParameter { // The first axis of bottom[0] (the first input

Ng第十七課：大規模機器學習(Large Scale Machine Learning)

在線 src 化簡 ima 機器學習 learning 大型數據集 machine cnblogs 17.1 大型數據集的學習 17.2 隨機梯度下降法 17.3 微型批量梯度下降 17.4 隨機梯度下降收斂 17.5 在線學習 17.6 映射化簡和數據並行

論文閱讀：A Primer on Neural Network Models for Natural Language Processing（1）

選擇 works embed 負責距離 feature 結構 tran put 前言 2017.10.2博客園的第一篇文章，Mark。由於實驗室做的是NLP和醫療相關的內容，因此開始啃NLP這個硬骨頭，希望能學有所成。後續將關註知識圖譜，深度強化學習等內

數據處理不等式：Data Processing Inequality

ext right 工程 log src enter 可用 proc 互信我是在差分隱私下看到的，新解決方案的可用性肯定小於原有解決方案的可用性，也就是說信息的後續處理只會降低所擁有的信息量。那麽如果這麽說的話為什麽還要做特征工程呢，這是因為該不等式有一個巨大

Sklearn.processing：scale, StandardScaler, MinMaxScaler, Normalizer

一、標準化 去除均值和方差縮放：通過(X-X_mean)/std計算每個屬性(每列)，進而使所有資料聚集在0附近，方差為1.

(1)、sklearn.preprocessing.scale() 直接將給定資料進行標準化

(2)、sklearn.preprocessing.StandardScaler() 可儲存訓練集中的均值、方差引數，然後直接用於轉換測試集資料。

相關推薦

一、標準化
去除均值和方差縮放：通過(X-X_mean)/std計算每個屬性(每列)，進而使所有資料聚集在0附近，方差為1.

(1)、sklearn.preprocessing.scale()
直接將給定資料進行標準化

(2)、sklearn.preprocessing.StandardScaler()
可儲存訓練集中的均值、方差引數，然後直接用於轉換測試集資料。