sklearn的一些技巧總結

阿新 • • 發佈：2019-01-15

1 scikit-learn基礎介紹

1.1 估計器（Estimator）

估計器，很多時候可以直接理解成分類器，主要包含兩個函式：

fit()：訓練演算法，設定內部引數。接收訓練集和類別兩個引數。
predict()：預測測試集類別，引數為測試集。
大多數scikit-learn估計器接收和輸出的資料格式均為numpy陣列或類似格式。

1.2 轉換器（Transformer）

轉換器用於資料預處理和資料轉換，主要是三個方法：

fit()：訓練演算法，設定內部引數。
transform()：資料轉換。
fit_transform()：合併fit和transform兩個方法。

1.3 流水線（Pipeline）

sklearn.pipeline包

流水線的功能：

跟蹤記錄各步驟的操作（以方便地重現實驗結果）
對各步驟進行一個封裝
確保程式碼的複雜程度不至於超出掌控範圍

基本使用方法

流水線的輸入為一連串的資料探勘步驟，其中最後一步必須是估計器，前幾步是轉換器。輸入的資料集經過轉換器的處理後，輸出的結果作為下一步的輸入。最後，用位於流水線最後一步的估計器對資料進行分類。
每一步都用元組（ ‘名稱’，步驟）來表示。現在來建立流水線。

scaling_pipeline = Pipeline([
  ('scale', MinMaxScaler()),
  ('predict', KNeighborsClassifier())
])

1.4 預處理

主要在sklearn.preprcessing包下。

規範化：

MinMaxScaler :最大最小值規範化
Normalizer :使每條資料各特徵值的和為1
StandardScaler :為使各特徵的均值為0，方差為1
Binarizer :為將數值型特徵的二值化

編碼：

LabelEncoder :把字串型別的資料轉化為整型
OneHotEncoder :特徵用一個二進位制數字來表示

1.5 特徵

1.5.1 特徵抽取

包：sklearn.feature_extraction
特徵抽取是資料探勘任務最為重要的一個環節，一般而言，它對最終結果的影響要高過資料探勘演算法本身。只有先把現實用特徵表示出來，才能藉助資料探勘的力量找到問題的答案。特徵選擇的另一個優點在於：降低真實世界的複雜度，模型比現實更容易操縱。
一般最常使用的特徵抽取技術都是高度針對具體領域的，對於特定的領域，如影象處理，在過去一段時間已經開發了各種特徵抽取的技術，但這些技術在其他領域的應用卻非常有限。

DictVectorizer：將dict型別的list資料，轉換成numpy array
FeatureHasher ：特徵雜湊，相當於一種降維技巧
image：影象相關的特徵抽取
text：文字相關的特徵抽取
text.CountVectorizer：將文字轉換為每個詞出現的個數的向量
text.TfidfVectorizer：將文字轉換為tfidf值的向量
text.HashingVectorizer：文字的特徵雜湊

示例

data.png

CountVectorize只數出現個數

count.png
hash.png

TfidfVectorizer：個數+歸一化

tfidf(without idf).png

1.5.2 特徵選擇

包：sklearn.feature_selection
特徵選擇的原因如下：
(1)降低複雜度
(2)降低噪音
(3)增加模型可讀性

VarianceThreshold：刪除特徵值的方差達不到最低標準的特徵
SelectKBest：返回k個最佳特徵
SelectPercentile：返回表現最佳的前r%個特徵

單個特徵和某一類別之間相關性的計算方法有很多。最常用的有卡方檢驗（χ2）。其他方法還有互資訊和資訊熵。

chi2：卡方檢驗（χ2）

1.6 降維

包：sklearn.decomposition

主成分分析演算法（Principal Component Analysis， PCA）的目的是找到能用較少資訊描述資料集的特徵組合。它意在發現彼此之間沒有相關性、能夠描述資料集的特徵，確切說這些特徵的方差跟整體方差沒有多大差距，這樣的特徵也被稱為主成分。這也就意味著，藉助這種方法，就能通過更少的特徵捕獲到資料集的大部分資訊。

1.7 組合

包：sklearn.ensemble
組合技術即通過聚集多個分類器的預測來提高分類準確率。
常用的組合分類器方法：
(1)通過處理訓練資料集。即通過某種抽樣分佈，對原始資料進行再抽樣，得到多個訓練集。常用的方法有裝袋（bagging）和提升（boosting）。
(2)通過處理輸入特徵。即通過選擇輸入特徵的子集形成每個訓練集。適用於有大量冗餘特徵的資料集。隨機森林（Random forest）就是一種處理輸入特徵的組合方法。
(3)通過處理類標號。適用於多分類的情況，將類標號隨機劃分成兩個不相交的子集，再把問題變為二分類問題，重複構建多次模型，進行分類投票。

1.8 模型評估（度量）

包：sklearn.metrics
sklearn.metrics包含評分方法、效能度量、成對度量和距離計算。
分類結果度量
引數大多是y_true和y_pred。

accuracy_score：分類準確度
condusion_matrix ：分類混淆矩陣
classification_report：分類報告
precision_recall_fscore_wupport：計算精確度、召回率、f、支援率
jaccard_similarity_score：計算jcaard相似度
hamming_loss：計算漢明損失
zero_one_loss：0-1損失
hinge_loss：計算hinge損失
log_loss：計算log損失

迴歸結果度量

explained_varicance_score：可解釋方差的迴歸評分函式
mean_absolute_error：平均絕對誤差
mean_squared_error：平均平方誤差

多標籤的度量

coverage_error：涵蓋誤差
label_ranking_average_precision_score：計算基於排名的平均誤差Label ranking average precision (LRAP)

聚類的度量

adjusted_mutual_info_score：調整的互資訊評分
silhouette_score：所有樣本的輪廓係數的平均值
silhouette_sample：所有樣本的輪廓係數

2 具體模型

2.1 樸素貝葉斯（Naive Bayes）

包：sklearn.naive_bayes

樸素貝葉斯.png

樸素貝葉斯的特點是分類速度快，分類效果不一定是最好的。

GasussianNB：高斯分佈的樸素貝葉斯
MultinomialNB：多項式分佈的樸素貝葉斯
BernoulliNB：伯努利分佈的樸素貝葉斯

所謂使用什麼分佈的樸素貝葉斯，就是假設P(x_i|y)是符合哪一種分佈，比如可以假設其服從高斯分佈，然後用最大似然法估計高斯分佈的引數。

高斯分佈.png
多項式分佈.png
伯努利分佈.png

3 scikit-learn擴充套件

3.0 概覽

具體的擴充套件，通常要繼承sklearn.base包下的類。

BaseEstimator：估計器的基類
ClassifierMixin ：分類器的混合類
ClusterMixin：聚類器的混合類
RegressorMixin ：迴歸器的混合類
TransformerMixin ：轉換器的混合類

關於什麼是Mixin（混合類），具體可以看這個知乎連結。簡單地理解，就是帶有實現方法的介面，可以將其看做是組合模式的一種實現。舉個例子，比如說常用的TfidfTransformer，繼承了BaseEstimator， TransformerMixin，因此它的基本功能就是單一職責的估計器和轉換器的組合。

3.1 建立自己的轉換器

在特徵抽取的時候，經常會發現自己的一些資料預處理的方法，sklearn裡可能沒有實現，但若直接在資料上改，又容易將程式碼弄得混亂，難以重現實驗。這個時候最好自己建立一個轉換器，在後面將這個轉換器放到pipeline裡，統一管理。
例如《Python資料探勘入門與實戰》書中的例子，我們想接收一個numpy陣列，根據其均值將其離散化，任何高於均值的特徵值替換為1，小於或等於均值的替換為0。
程式碼實現：

from sklearn.base import TransformerMixin
from sklearn.utils import as_float_array

class MeanDiscrete(TransformerMixin):

  #計算出資料集的均值，用內部變數儲存該值。  
  def fit(self, X, y=None):
        X = as_float_array(X)
        self.mean = np.mean(X, axis=0)
        #返回self，確保在轉換器中能夠進行鏈式呼叫（例如呼叫transformer.fit(X).transform(X)）
        return self

    def transform(self, X):
        X = as_float_array(X)
        assert X.shape[1] == self.mean.shape[0]
        return X > self.mean

sklearn的一些技巧總結

1 scikit-learn基礎介紹

1.1 估計器（Estimator）

1.2 轉換器（Transformer）

1.3 流水線（Pipeline）

流水線的功能：

基本使用方法

1.4 預處理

1.5 特徵

1.5.1 特徵抽取

1.5.2 特徵選擇

1.6 降維

1.7 組合

1.8 模型評估（度量）

2 具體模型

2.1 樸素貝葉斯（Naive Bayes）

3 scikit-learn擴充套件

3.0 概覽

3.1 建立自己的轉換器

sklearn的一些技巧總結

[轉]用python爬蟲抓站的一些技巧總結 zz

Reporting Service 2000的一些技巧總結

基於SPH的流體模擬實踐和一些技巧總結

用python爬蟲抓站的一些技巧總結 (轉)

Android學習筆記：練習中用到的一些技巧總結

一些常用JS函數和技巧總結

jquery操作復選框(checkbox)的一些小技巧總結

一些mysql小技巧總結

angular js和一些個人總結小技巧

Python爬蟲：一些常用的爬蟲技巧總結

【資料結構與演算法】一些常用的演算法技巧總結

一些常用的演算法技巧總結

2018華為杯E題的一些思考和三維模型圖繪圖技巧總結

leetcode刷題——一些演算法技巧總結1.0

ACM數論一些簡單結論和程式設計小技巧總結

Python爬蟲：一些常用的爬蟲技巧總結(IP,cookie,header,多執行緒)

其他-一些自己總結的卡常技巧

JS建立頁面蒙板的一些知識技巧總結-ajax技巧

python︱sklearn一些小技巧的記錄

sklearn的一些技巧總結

1 scikit-learn基礎介紹

1.1 估計器（Estimator）

1.2 轉換器（Transformer）

1.3 流水線（Pipeline）

流水線的功能：

基本使用方法

1.4 預處理

1.5 特徵

1.5.1 特徵抽取

1.5.2 特徵選擇

1.6 降維

1.7 組合

1.8 模型評估（度量）

2 具體模型

2.1 樸素貝葉斯（Naive Bayes）

3 scikit-learn擴充套件

3.0 概覽

3.1 建立自己的轉換器

相關推薦