機器學習scikit-learn（一）

阿新 • • 發佈：2019-01-10

機器學習scikit-learn

在資料分析過程中，我們經常會碰到各種各樣的問題。如何獲取外部資料？如何處理髒資料？如何處理缺失值？若有許多特徵，我們減少特徵？建立各種模型中演算法的細節？到最後，面對多種模型，我們該如何選擇？這些問題，都將在此文中得到解答。此文分為五個部分：

建立模型的之前的工作
建立線性模型
聚類分析
分類
建立模型之後的工作

建立模型前的工作

如何從外界獲取資料？

獲取外界資料有很多種方法，有直接下載、API和爬蟲等，這裡只介紹scikit-learn內建的資料，這些資料用來熟悉各種演算法。

from sklearn import datasets #sklearn有資料集的模組

其中的資料有兩類，一類是小資料，直接包含在模組之中；另一類是大資料，需要你自己下載，sklearn提供函式下載。

boston = datasets.load_boston()#從資料集中載入波斯頓資料
print boston.DESCR #可以檢視資料的描述
housing = datasets.fetch_california_housing() #從網上下載大資料

這些資料被載入時，不是Numpy的array格式，而是一個叫Bunch的格式，Bunch是一個特殊的字典，字典中的Keys作為資料的屬性。

X,y = boston.data,boston.target #X為特徵資料，有y是預測資料

UCI Machine Learning Repository其中有更多的資料集用來實驗演算法，我們可以盡情的利用這些資料集，而不用擔心，自己學習了各種演算法，而沒有資料集去實現！

為簡單的分析生成樣本資料

datasets模組中有一個make_函式，可以生成一些簡單的資料，以便於分析。

import sklearn.datasets as d #簡寫為了方便
reg_data = d.make_regression() #生成迴歸資料
complex_reg_data = d.make_regression(1000,10,5,2,1.0) #生成複雜點的迴歸資料－1000＊10的矩陣，5個有效變數，2個目標變數，1.0的偏差
classification_set = d.make_classification(weight=[0.1]) #生成分類資料
blobs = d.make_blobs() #生成聚類資料

datasets模組中還有更多的函式去生成各種各樣的資料，可以看一看，等需要的時候再用。

標準化資料

縮放資料是非常重要的步驟，許多機器學習演算法，在資料有不同的尺度的情況下根本無法發揮用處。比如利用支援向量機進行預測，當你的一個特徵變數是0-1，而另一個變數的範圍卻是0-10000，這時支援向量機的表現會非常差，以至於產生一個錯誤的模型。我們常用的標準化的方法是正態化，z－scores。scikit-learn有一個preprocessing模組，利用這個模組中的scale、StandardScaler和MinMaxScaler我們就可以進行縮放資料的操作。

from sklearn import preprocessing
X_2 = preprocessing.scale(X) #縮放波斯頓特徵資料，將標準差都變為1.
my_scaler = preprocessing.StandardScaler() #與以上相同
my_scaler.fit(X)
my_scaler.transform(X)
#也可以縮放範圍
my_minmax_scaler = preprocessing.MinMaxScaler() #縮放範圍，預設為［0，1］
my_minmax_scaler.fit(x)
my_minmax_scaler.transform(x)
my_odd_scaler = preprocessing.MinMaxScaler(feature_range = (-5,5)) #縮放範圍改為［－5，5］

通過閾值建立二元變數

有一些變數是連續變數，我們想把它變成二元變數，利於分析。就比如決策樹中，我們有一變數是工資，為連續變數，而連續變數不利於決策樹建模，於是利用閾值將其分為二元變數，高工資和低工資。這個方法在preprocessing.binarize和preprocessing.Binarizer都可實現。

new_target＝preprocessing.binarize(boston.target,threshold=boston.target.mean) #把波斯頓資料目標變數變成二元變數，閾值是均值，大於均值為1
bin = preprocessing.Binarizer(boston.target.mean())
new_target = bin.fit_transform(boston.target)

處理分類變數

分類變數能給我們提供更多的資訊，有時候卻非常麻煩，因為它可能是文字的，對於文字，我們根本無法用演算法進行分析。我們就需要去處理分類變數，將分類變數變成二元變數。例如分類變數紅色、綠色、黑色，我們根據其是否為紅色、綠色、黑色，轉化為二元變數。在sklearn裡有OneHotEncoder、DictVectorizer和patsy用來處理分類變數。

from sklearn import preprocessing
text_encoder = preprocessing.OneHotEncoder()
text_encoder.fit_transform(iris.target).toarray()

from sklearn.feature_extraction import DictVectorizer
dv = DictVectorzier()
my_dict = [{'species':iris.target_names[i]} for i in y]
dv.fit_transform(my_dict).toarray()

處理缺失值

如何處理缺失值在實踐中非常重要，幸運的是，我們有很多方法去處理缺失值。對於缺失值，我們可以直接去除這個樣本，如果你的樣本足夠多的話。但是一般我們都是用平均值、中位數和眾數去代替。其中實現的方法可以利用sklearn中的Imputer來進行處理。

from sklearn import preprocessing
impute = preprocessing.Imputer() #預設為平均值
impute.fit_transform(X)

流水線－多步驟預處理

當你的預處理步驟較多時，使用流水線比較方便,更有利於以後的交叉驗證。方法實現是利用pipeline.當我們不是用pipeline的預處理步驟是：

from sklearn import preprocessing
impute = preprocessing.Imputer()
scaler = preprocessing.StandarScaler()
X_imputed = impute.fit_transform(X)
X_imp_and_scaled = scaler.fit_transform(X)

而當我們使用pipeline時：

from sklearn import pipeline
pipe = pipeline.Pipeline([('impute',impute),('scaler',scaler)])
new_x = pipe.fit_transform(X)

降維

PCA是利用線性轉化把資料轉換到特徵空間中，得到前幾個能代表最多資訊的主成分，從而達到降維的目的，其實現方法是decompositin.PCA.

from sklearn import decomposition
pca = decomposition.PCA()
pca.fit_transform(X)
pca.explained_variance_ratio_

因子分析是另一種降維方法，其假定變數中有一些公共因子，公共因子的數目是少於變數的，這樣就達到降維的目的，其實現方法是decomposition.FactorAnalysis.

from sklearn import decomposition
fa = decomposition.FacorAnalysis()
fa.fit_transform(X)

核PCA是先利用核技巧把資料投射到高維空間，然後利用PCA進行降維。這種方法對非線性資料進行降維。核函式有：polynomial、rbf、sigmoid、cosine、precomputed

kpca = decomposition.KernelPCA(kernel='cosine',n_components=1)
X_transformed = kpca.fit_transform(X)

截斷SVD，截斷奇異值分解，是另一種降維方法，其可以用在稀疏矩陣而PCA不能。

from sklearn.decomposition import TruncatedSVD
svd = TruncatedSVD(2)
X_transformed = svd.fit_transform(X)

到此學習瞭如何獲取資料，如何對資料進行預處理（標準化、缺失值和降維），這些都是非常基礎的知識，也是非常重要的知識。下節我們會試試去建立簡單模型——線性模型。

參考：《scikit-learn cookbook》by Trent Hauck

機器學習scikit-learn（一）

機器學習scikit-learn

建立模型前的工作

如何從外界獲取資料？

為簡單的分析生成樣本資料

標準化資料

通過閾值建立二元變數

處理分類變數

處理缺失值

流水線－多步驟預處理

降維

機器學習scikit-learn（一）

機器學習實戰筆記（一）- 使用SciKit-Learn做回歸分析

中國mooc北京理工大學機器學習第一周（一）

中國mooc北京理工大學機器學習第二周（一）：分類

機器學習入門點滴（一）（待補充完整）

《Python 機器學習》筆記（一）

機器學習實戰教程（一）：線性回歸基礎篇（上）

吳恩達老師機器學習筆記SVM（一）

機器學習基礎概念（一）

系統學習機器學習之總結（一）--常見分類演算法優缺點

跨平臺機器學習實踐小結（一）

機器學習速成筆記（一）：主要術語

機器學習：SVM（一）——線性可分支援向量機原理與公式推導

《機器學習實戰》（一）knn演算法

Coursera吳恩達機器學習教程筆記（一）

機器學習之路（一）---支援向量機SVM

【機器學習】吳（一）

【科普周】機器學習掃盲篇（一）

機器學習實戰ByMatlab（一）KNN演算法

機器學習方法總結（一）

機器學習scikit-learn（一）

機器學習scikit-learn

建立模型前的工作

如何從外界獲取資料？

為簡單的分析生成樣本資料

標準化資料

通過閾值建立二元變數

處理分類變數

處理缺失值

流水線－多步驟預處理

降維

相關推薦