scikit基礎與機器學習入門（6）編碼，增加多項式特徵和缺失值處理

阿新 • • 發佈：2021-09-19

分類特徵編碼_獨熱編碼

為了解決這個問題，我們可以使用一種叫做"one-of-K"或稱做"one-hot"（獨熱）的編碼方式。即兩
個特徵值來進行編碼性別[1,0]表示"male"，而[0,1]表示"female"。通常使用"one-hot"方式編碼後會
增加資料的維度和稀疏性。

from sklearn import preprocessing
X = [[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]
onehot = preprocessing.OneHotEncoder()
onehot.fit_transform(X).toarray() # 將稀疏矩陣轉化為普通矩陣

如果訓練集中有沒有出現的實際存在的值，必須顯式地設定\(n\_values\)

# 如果訓練集中有丟失的分類特徵值，必須顯式地設定 n_values
encoder = preprocessing.OneHotEncoder(n_values=[2,4,4])
encoder.fit_transform(X).toarray()

處理缺失值

除了DataFrame中的方法，sklearn也包括填充缺失值的方法

import numpy as np
from sklearn.preprocessing import Imputer
# 策略有 mean,most_frequent,median
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
imp.fit([[1, 2], [np.nan, 3], [7, 6]])
#fit求得第一列特徵均值為4，第二列特徵均值為11/3
X = [[np.nan, 2], [6, np.nan], [7, 6]]
print(imp.transform(X))

直接使用特徵和無法找到分割決策邊界，線性不可分。使用多項式特徵後,可以找到分割決策
邊界：\(X_1^{2}+X_2^{2}-1=0\)

import numpy as np
from sklearn.preprocessing import PolynomialFeatures
X = np.arange(6).reshape(3, 2)
poly = PolynomialFeatures(2) #這是最高的多項式次數
print(X)
print(poly.fit_transform(X))

X 的特徵已經從\((X_1,X_2)\)轉換為\((1,X_1,X_2,X_1^{2},X_1X_2,X_2^{2})\)

。

在一些情況下，只需要特徵間的互動項，這可以通過設定 interaction_only=True 來得到

poly2 = PolynomialFeatures(2,interaction_only=True)
print(poly2.fit_transform(X))

X 的特徵已經從\((X_1,X_2)\)轉換為\((1,X_1,X_2,X_1X_2)\)

很喜歡聽到一個老師說的“半年理論”，現在做出的努力，一般要在半年的沉澱之後，才能出結果，所以在遇到瓶頸之時，不妨再努力半年

scikit基礎與機器學習入門（6）編碼，增加多項式特徵和缺失值處理

分類特徵編碼_獨熱編碼為了解決這個問題，我們可以使用一種叫做\"one-of-K\"或稱做\"one-hot\"（獨熱）的編碼方式。即兩

scikit基礎與機器學習入門（1）背景介紹

scikit基礎與機器學習入門（1）第一章僅對概念進行大略地描述，具體演算法的具體原理後續再說

scikit基礎與機器學習入門（4） sklearn模組資料集的使用——自帶資料集和自定義資料集

API通用方法型別獲取方式自帶的小資料集 sklearn.datasets.load_ 線上下載的資料集 sklearn.datasets.fetch_

scikit基礎與機器學習入門（3）機器學習任務的一般流程——以鳶尾花分類為例

機器學習任務的一般流程本文以鳶尾花資料集為例，對機器學習人物的一般步驟進行了梳理

scikit基礎與機器學習入門（5）歸一化，標準化和正則化，二值化

歸一化，標準化和正則化，二值化概念和含義資料歸一化：將資料集中某一列數值特徵的值縮放到0-1區間內

scikit基礎與機器學習入門（7）特徵的選擇

選擇特徵有以下兩方面依據：特徵是否發散：如果一個特徵不發散，例如方差接近於0，也就是說樣本在這個特徵上基本上沒有差異，這個特徵對於樣本的區分並沒有什麼用。

scikit基礎與機器學習入門（9）Pipeline和FeatureUnion的構建——構築有條理的機器學習系統

Pipeline訓練過程第一級進行資料預處理，第二級完成資料降維，第三級實現分類、迴歸或聚類功能。

scikit基礎與機器學習入門（8） sklearn主要解決的三類問題——分類，迴歸和聚類

其實這篇沒啥內容，就是在熟悉一下程式碼\\((*^_^*)\\) 分類模型的訓練——以決策樹為例

scikit基礎與機器學習入門（11）欠擬合，過擬合和交叉驗證

欠擬合和過擬合的定義在機器學習問題中，經常會出現模型在訓練資料上的得分很高，但是在新的資料上表現很差的情況，這稱之為過擬合overfitting,又叫高方差high variance

scikit基礎與機器學習入門（10）模型的評估

除了使用estimator的score函式簡單粗略地評估模型的質量之外，在sklearn.metrics模組針對不同的問題型別提供了各種評估指標並且可以建立使用者自定義的評估指標

scilit基礎和機器學習入門（12）模型的優化

超引數的取值和搜尋超引數是不直接在估計器內學習的引數。在 scikit-learn 包中，它們作為估計器類中建構函式的引數進行傳遞。典型的例子有：用於支援向量分類器的 C 、kernel 和 gamma ，用於Lasso的 alpha等。

TensorFlow強化學習入門（0）——Q-Learning的查詢表實現和神經網路實現

我們將學習如何處理OpenAI FrozenLake問題，當然我們的問題不像圖片中那樣逼真

Hive學習小記-（6）collect_set與笛卡爾積使用

場景有兩張表，一張活動清單表actv_evt：記錄了所有的活動，包括活動id，活動名稱及活動相關配置資訊；一張客戶活動參與表cust_actv，記錄了客戶參與活動資訊。

機器學習sklearn（45）：特徵工程（十二）特徵編碼（六）處理分型別特徵：編碼與啞變數/處理連續型特徵：二值化與分段

1處理分型別特徵：編碼與啞變數 from sklearn.preprocessing import LabelEncoder y = data.iloc[:,-1] #要輸入的是標籤，不是特徵矩陣，所以允許一維

機器學習sklearn（77）：演算法例項（三十四）迴歸（六）線性迴歸大家族（四）多重共線性：嶺迴歸與Lasso（一）嶺迴歸

1 最熟悉的陌生人：多重共線性逆矩陣存在的充分必要條件行列式不為0的充分必要條件

機器學習sklearn（78）：演算法例項（三十五）迴歸（七）線性迴歸大家族（五）多重共線性：嶺迴歸與Lasso（二）Lasso

3 Lasso 3.1 Lasso與多重共線性 3.2 Lasso的核心作用：特徵選擇 import numpy as np import pandas as pd

技術期刊 · 白日照耀開鴻蒙 | 深入鴻蒙 ACE UI 框架解析;無限迴圈的 useEffect 型別;用 Three.js 實現 3D 房間;圖神經網路入門;超基礎的機器學習入門-原理篇

蒲公英 · JELLY技術期刊 Vol.45 清氣升，濁氣降，事物發展總會遵循一定的規律，就好像 react hooks 更加簡潔易的同時，也可能會有隱患；人工智慧也會隨著時間的流逝逐步滲透到我們日常開發，成為解決問題的一大利

超基礎的機器學習入門-原理篇

前言隨著前端智慧化的火熱，AI機器學習進入前端開發者們的視野。AI能夠解決程式設計領域不能直接通過規則和運算解決的問題，通過自動推理產出最佳策略，成為了前端工程師們解決問題的又一大利器。

Python基礎入門（6）- 面向物件程式設計

1.初識面向物件 Python從設計之初就已經是一門面向物件的語言，正因為如此，在Python中建立一個類和物件是很容易的。本篇隨筆將詳細介紹Python的面向物件程式設計。

寫給程式設計師的機器學習入門 (八) - 卷積神經網路 (CNN) - 圖片分類和驗證碼識別

這一篇將會介紹卷積神經網路 (CNN)，CNN 模型非常適合用來進行圖片相關的學習，例如圖片分類和驗證碼識別，也可以配合其他模型實現 OCR。

scikit基礎與機器學習入門（6）編碼，增加多項式特徵和缺失值處理

分類特徵編碼_獨熱編碼

處理缺失值

相關推薦