sklearn機器學習庫中資料的標準化

阿新 • • 發佈：2019-01-26

本篇部落格主要借鑑的是http://www.cnblogs.com/chaosimple/p/4153167.html  這位大牛的部落格，

最近在學習sklearn，寫演算法基本上都會用到標準化， 資料標準化一共有三種，廢話不多說，看具體的程式碼：

#encoding:utf-8
'''
Created on 2015年10月13日
@author: ZHOUMEIXU204
'''

#sklearn資料標準化，資料標準化有三種
#第一種是Z-Score，或者去除均值和方差縮放
from  sklearn import preprocessing
import numpy as np
x=np.array([[1.,-1.,2.],
            [2.,0.,0.],
            [0.,1.,-1.]])
x_scaled=preprocessing.scale(x)
x_scaled.mean(axis=0)
x_scaled.std(axis=0)
# 使用sklearn.preprocessing.StandardScaler類，
# 使用該類的好處在於可以儲存訓練集中的引數（均值、方差）
# 直接使用其物件轉換測試集資料。
scaler=preprocessing.StandardScaler().fit(x)
scaler.mean_
scaler.std_
scaler.transform(x)  #跟上面的結果是一樣的

#第二種是將屬性縮放到一個指定範圍,也是就是(x-min)/(max-min)
#依賴於preprocessing中的MinMaxScaler類
x_train=np.array([[1.,-1.,2.],
            [2.,0.,0.],
            [0.,1.,-1.]])

min_max_scaler=preprocessing.MinMaxScaler()
x_train_minmax=min_max_scaler.fit_transform(x_train)
print(x_train_minmax)
# 當然，在構造類物件的時候也可以直接指定最大最小值的範圍：feature_range=(min, max)，此時應用的公式變為：
# x_std=(X-X.min(axis=0))/(X.max(axis=0)-X.min(axis=0))
# x_scaled=X_std/(max-min)+min

#第三種是正則化Normalization

x=np.array([[1.,-1.,2.],
            [2.,0.,0.],
            [0.,1.,-1.]])
x_normalized=preprocessing.normalize(x,norm='l2')
print(x_normalized)

# 可以使用processing.Normalizer()類實現對訓練集和測試集的擬合和轉換
normalizer=preprocessing.Normalizer().fit(x)
print(normalizer)
normalizer.transform(x)

sklearn機器學習庫中資料的標準化

本篇部落格主要借鑑的是http://www.cnblogs.com/chaosimple/p/4153167.html 這位大牛的部落格，最近在學習sklearn，寫演算法基本上都會用到標準化，資

掌握Spark機器學習庫大資料開發技能更進一步

掌握Spark機器學習庫大資料開發技能更進一步第1章初識機器學習在本章中將帶領大家概要了解什麼是機器學習、機器學習在當前有哪些典型應用、機器學習的核心思想、常用的框架有哪些，該如何進行選型等相關問題。 1-1 導學 1-2 機器學習概述 1-

python的sklearn機器學習SVM中的NuSVC執行報錯：ValueError: b'specified nu is infeasible'

早上在使用NuSVC進行模型訓練的時候，報錯如下 Reloaded modules: __mp_main__ Traceback (most recent call last): File "<ipython-input-2-c95a09e8e532>", line 1

Python sklearn機器學習庫的安裝大坑拋磚引玉求大神！

本人機器學習小白最近迷上了python機器學習但小弟是做安卓開發的有點python的基礎希望可以學習自我提升一下有機會轉行更好啊哈哈話說回來萬事開頭難！！！在我安裝忘numpy scipy matplotlib 等一些基礎庫之後並且能順利的在shell中

python sklearn機器學習庫安裝

1、準備工作安裝sklearn之前，我們需要先安裝numpy，scipy函式庫。下載對應本機的python版本。 2、安裝sklearn機器學習庫下載壓縮包之後，解該壓縮包壓縮。使用CMD進入sklearn資料夾，執行 python setup.py insta

Python機器學習庫SKLearn：資料集轉換之預處理資料

資料集轉換之預處理資料：將輸入的資料轉化成機器學習演算法可以使用的資料。包含特徵提取和標準化。原因：資料集的標準化（服從均值為0方差為1的標準正態分佈（高斯分佈））是大多數機器學習演算法的常見要求。如果原始資料不服從高斯分佈，在預測時

機器學習庫sklearn中整合學習模型引數釋義

''' scikit-learn基於AdaBoosts演算法提供了兩個模型： 1.AdaBoostClassifier用於解決分類問題 2.AdaBoostRegressor用於解決迴歸問題 ''' from sklearn.ensemble import AdaBoostC

機器學習_Python中Gradient Boosting Machine(GBM）學習筆記1_資料分析

原文地址：Complete Guide to Parameter Tuning in Gradient Boosting (GBM) in Python by Aarshay Jain 翻譯出處：http://blog.csdn.net/han_xiaoyang/artic

Data Leakage in Machine Learning 機器學習訓練中的資料洩漏

refer to: https://www.kaggle.com/dansbecker/data-leakage There are two main types of leakage: Leaky Predictors and a Leaky Validation Strategies. L

Python：機器學習庫 sklearn

安裝： pip install -U scikit-learn 資料標準化 from sklearn import preprocessing a = np.array([[10, 2.7, 3.6], [-100, 5, -2],

基於python的機器學習庫Sklearn

scikit-learn，也稱為sklearn，是基於python的機器學習庫，可以方便進行機器學習演算法的實施，包括：分類、迴歸、聚類、降維、模型選擇和預處理等資料探勘的相關演算法。下面是對官方文件進行學習的收穫，以程式碼的形式將官方文件的內容翻譯記錄

Python機器學習庫sklearn裡利用感知機進行三分類（多分類）的原理

from IPython.display import Image %matplotlib inline # Added version check for recent scikit-learn 0.18 checks from distutils.vers

python機器學習庫sklearn——Lasso迴歸（L1正則化）

Lasso The Lasso 是估計稀疏係數的線性模型。它在一些情況下是有用的，因為它傾向於使用具有較少引數值的情況，有效地減少給定解決方案所依賴變數的數量。因此，Lasso 及其變體是壓縮感知領域的基礎。在一定條件下，它可以恢復一組非零權重的

Python: sklearn庫中資料預處理函式fit_transform()和transform()的區別

敲《Python機器學習及實踐》上的code的時候，對於資料預處理中涉及到的fit_transform()函式和transform()函式之間的區別很模糊，查閱了很多資料，這裡整理一下：涉及到這兩個函式

python機器學習庫sklearn——樸素貝葉斯分類器

在scikit-learn中，一共有3個樸素貝葉斯的分類演算法類。分別是GaussianNB，MultinomialNB和BernoulliNB。其中GaussianNB就是先驗為高斯分佈的樸素貝葉斯，MultinomialNB就是先驗為多項式分佈的樸素

python機器學習庫sklearn——K最近鄰、K最近鄰分類、K最近鄰迴歸

這裡只講述sklearn中如何使用KNN演算法。無監督最近鄰 NearestNeighbors （最近鄰）實現了 unsupervised nearest neighbors learning（無監督的最近鄰學習）。它為三種不同的最近鄰演算法

sklearn機器學習常用資料處理總結

資料才是王道→資料預處理與資料集構建 from IPython.display import Image %matplotlib inline # Added version check for recent scikit-learn 0.18 checks from

機器學習影象識別資料探勘面試中不會的&答錯的&答得不好的問題Mark1

博主非CS傳統工科碩士一枚，碩士期間專案上和深度學習沾沾邊。目前投的崗位差不多都是影象識別或者機器學習或者資料探勘方向，幾個面試下來，差不多都是沒有下文了，怪不得被人只恨自己沒有準備充分，在這裡記錄一下

[機器學習]基於python的機器學習庫Sklearn-01

1.1 廣義線性模型以下介紹的方法均是用於求解迴歸問題,其目標值預計是輸入值的一個線性組合.用數學語言表示: 假設y是預測值,則有: 在本節中,稱向量:為係數. 若要講通用的線性模型用於分類問題,可以參考Logistic迴歸 1.1.1

Python機器學習庫sklearn幾種迴歸演算法建模及分析(實驗)

最簡單的迴歸模型就是線性迴歸資料匯入與視覺化分析 from IPython.display import Image %matplotlib inline # Added version che

sklearn機器學習庫中資料的標準化

相關推薦