Python機器學習之特徵工程

阿新 • • 發佈：2019-01-08

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split

1、資料載入

# 載入資料集
fruits_df = pd.read_table('fruit_data_with_colors.txt')
print(fruits_df.head())
print('樣本個數：', len(fruits_df))
# 建立目標標籤和名稱的字典
fruit_name_dict = dict(zip(fruits_df['fruit_label' 
], fruits_df['fruit_name']))
print(fruit_name_dict)
# 劃分資料集
X = fruits_df[['mass', 'width', 'height', 'color_score']]
y = fruits_df['fruit_label']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=1/4, random_state=0)
print('資料集樣本數：{}，訓練集樣本數：{}，測試集樣本數：{}'.format(len(X), len(X_train), len(X_test)))

2、特徵歸一化

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

for i in range(4):
    print('歸一化前，訓練資料第{}維特徵最大值：{:.3f}，最小值：{:.3f}'.format(i + 1, 
                                           X_train.iloc[:, i].max 
(), 
                                           X_train.iloc[:, i].min()))
    print('歸一化後，訓練資料第{}維特徵最大值：{:.3f}，最小值：{:.3f}'.format(i + 1, 
                                           X_train_scaled[:, i].max(), 
                                           X_train_scaled[:, i].min()))
    print()
from mpl_toolkits.mplot3d import Axes3D

label_color_dict = {1: 'red', 2: 'green', 3: 'blue', 4: 'yellow'}
colors = list(map(lambda label: label_color_dict[label], y_train))

fig = plt.figure(figsize=(10, 5))
ax1 = fig.add_subplot(121, projection='3d', aspect='equal')
ax1.scatter(X_train['width'], X_train['height'], X_train['color_score'], c=colors, marker='o', s=100)
ax1.set_xlabel('width')
ax1.set_ylabel('height')
ax1.set_zlabel('color_score')

ax2 = fig.add_subplot(122, projection='3d', aspect='equal')
ax2.scatter(X_train_scaled[:, 1], X_train_scaled[:, 2], X_train_scaled[:, 3], c=colors, marker='o', s=100)
ax2.set_xlabel('width')
ax2.set_ylabel('height')
ax2.set_zlabel('color_score')
plt.show()

3、歸一化對結果的影響

from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=5)
# 在未歸一化的資料上進行訓練並測試
knn.fit(X_train, y_train)
print('未歸一化特徵，測試準確率：{:.3f}'.format(knn.score(X_test, y_test)))
# 在歸一化的資料上進行訓練並測試
knn.fit(X_train_scaled, y_train)
print('歸一化特徵後，測試準確率：{:.3f}'.format(knn.score(X_test_scaled, y_test)))

4、標籤編碼和獨熱編碼

# 隨機生成有序型特徵和類別特徵作為例子
X_train = np.array([['male', 'low'],
                  ['female', 'low'],
                  ['female', 'middle'],
                  ['male', 'low'],
                  ['female', 'high'],
                  ['male', 'low'],
                  ['female', 'low'],
                  ['female', 'high'],
                  ['male', 'low'],
                  ['male', 'high']])

X_test = np.array([['male', 'low'],
                  ['male', 'low'],
                  ['female', 'middle'],
                  ['female', 'low'],
                  ['female', 'high']])
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
# 在訓練集上進行編碼操作
label_enc1 = LabelEncoder() # 首先將male, female用數字編碼
one_hot_enc = OneHotEncoder() # 將數字編碼轉換為獨熱編碼
label_enc2 = LabelEncoder() # 將low, middle, high用數字編碼
tr_feat1_tmp = label_enc1.fit_transform(X_train[:, 0]).reshape(-1, 1) # reshape(-1, 1)保證為一維列向量
tr_feat1 = one_hot_enc.fit_transform(tr_feat1_tmp) 
tr_feat1 = tr_feat1.todense()
tr_feat2 = label_enc2.fit_transform(X_train[:, 1]).reshape(-1, 1)
X_train_enc = np.hstack((tr_feat1, tr_feat2))
print(X_train_enc)
# 在測試集上進行編碼操作
te_feat1_tmp = label_enc1.transform(X_test[:, 0]).reshape(-1, 1) # reshape(-1, 1)保證為一維列向量
te_feat1 = one_hot_enc.transform(te_feat1_tmp) 
te_feat1 = te_feat1.todense()
te_feat2 = label_enc2.transform(X_test[:, 1]).reshape(-1, 1)
X_test_enc = np.hstack((te_feat1, te_feat2))
print(X_test_enc)

Python機器學習之特徵工程

import numpy as np import matplotlib.pyplot as plt import pandas as pd import seaborn as sns from sklearn.model_selection import

系統學習機器學習之特徵工程（二）--離散型特徵編碼方式：LabelEncoder、one-hot與啞變數*

轉自：https://www.cnblogs.com/lianyingteng/p/7792693.html 在機器學習問題中，我們通過訓練資料集學習得到的其實就是一組模型的引數，然後通過學習得到的引數確定模型的表示，最後用這個模型再去進行我們後續的預測分類等工作。在模型訓練過程中，我們會對訓練

機器學習之特徵工程-資料預處理

摘自 jacksu在簡書機器學習之特徵工程-資料預處理 https://www.jianshu.com/p/23b493d38b5b 通過特徵提取，我們能得到未經處理的特徵，這時的特徵可能有以下問題：不屬於同一量綱：即特徵的規格不一樣，不能夠放在

機器學習之特徵工程

首先，給一張特徵工程的思維導圖：【如果要瀏覽圖片，建議將其下載到本地，使用圖片瀏覽軟體檢視】關於特徵工程（Feature Engineering），已經是很古老很常見的話題了，坊間常說：“資料和特徵決定了機器學習的上限，而模型和演算法只是逼近這個上限而已”。由此可見，特徵工程在機器學習中佔

機器學習之特徵工程-特徵選擇

點選“閱讀原文”直接開啟【北京站 | GPU CUDA 進階課程】報名連結一個基本的資料探勘場景如下：資料探勘.jpg 從上面的資料探勘場景可知，當資料預處理完成後，我們需要選擇有意義的特徵，輸入機器學習的演算法模型進行訓練。通常來說，從兩個方面考慮來選擇特徵：特徵是否發散：如果一個特徵

系統學習機器學習之特徵工程（一）--維度歸約

這裡，我們討論特徵選擇和特徵提取，前者選取重要的特徵子集，後者由原始輸入形成較少的新特徵，理想情況下，無論是分類還是迴歸，我們不應該將特徵選擇或特徵提取作為一個單獨的程序，分類或者回歸方法應該能夠利用任何必要的特徵，而丟棄不相關的特徵。但是，考慮到演算法儲存量和時間的複雜度，

Python 機器學習之開發環境

sta HR nta 命令行 make 語言 anaconda 使用總結 2.6 Python 數據分析庫 Python 編程語言 Pythong Tutorial: https://docs.python.org/3/tutorial/ NumPy 提供常用的數值數組、矩

Python機器學習之梯度提升樹

pri () 糾正 ensemble depth del gbrt 1.5 cer #和隨機森林一樣，基於決策樹，采用連續的方式構建樹，深度很小max_depth<5.重要的參數n_estimate和learning_rate,這兩個參數的y作用在於對模型過擬合化得調

Python機器學習之資料預處理

# -*- coding: utf-8 -*- """ Created on Sat Sep 29 22:39:26 2018 @author: Lxiao217 email:[email protected] """ #資料預處理 #CSV(comma-srpared values,

機器學習-2.特徵工程和文字特徵提取

1. 資料集的組成前面講了，機器學習是從歷史資料當中獲得規律，那這些歷史資料的組成是個什麼格式？大都儲存在哪裡？ – 在機器學習裡大多數資料不會存在資料庫中，大都存在檔案中（比如csv檔案） – 不存在資料庫原因：1. 讀取速度導致存在效能瓶頸。2. 儲存的格式不太符合機器學習

【機器學習】機器學習之特徵選擇

機器學習之特徵選擇特徵選擇方法初識： 1、為什麼要做特徵選擇在有限的樣本數目下，用大量的特徵來設計分類器計算開銷太大而且分類效能差。 2、特徵選擇的確切含義將高維空間的樣本通過對映或者是變換的方式轉換到低維空間，達到降維的目的，然後通過特徵選取刪選掉冗餘和不相關的特徵來進一步降維。

【機器學習】特徵工程多特徵值序列化數值化獨熱編碼處理(LabelEncoder, pd.factorize())

多特徵值序列化數值化獨熱編碼處理當我們在運用某些模型時，比如在Scikit-learn中，它要求資料都得是numberic（數值型），若是文字型別就無法進行訓練。那麼在這種情況下，我們就應該先對資料進行序列化數值化：下面是幾種在Python中數值化的方法： 1

機器學習之特徵選擇方法整理

三個問題 1、為什麼特徵選擇？在有限的樣本數目下，用大量的特徵來設計分類器計算開銷太大而且分類效能差。 2、特徵選擇是什麼？將高維空間的樣本通過對映或者是變換的方式轉換到低維空間，達到降維的目的，然後通過特徵選取刪選掉冗餘和不相關的特徵來進一步降維。 3、如何進行特徵選取？

python機器學習之SMO演算法

SVM演算法計算到後面是一個帶約束條件的優化問題這裡的SMO(Sequential Minimal Optimization)序列最小化演算法就是一個二次規劃優化演算法，可以用來解決上面的問題。SMO演算法是由John C.Platt在1998年提出的。SMO演算法的目

python機器學習之--用凝聚層次聚類進行資料分組

1.什麼是層次聚類def perfrom_clustering(X,connectivity,title,num_clusters=3,linkage='ward'): plt.figure() model = AgglomerativeClustering(

Spark機器學習之特徵提取、選擇、轉換

本節介紹了處理特徵的演算法，大致分為以下幾組： 1、提取：從“原始”資料提取特徵 2、轉換：縮放，轉換或修改要素 3、選擇：從一組較大的要素中選擇一個子集 4、區域性敏感雜湊（LSH）：這類演算法將特徵變換的方面與其他演算法

機器學習：特徵工程

特徵選擇直接影響模型靈活性、效能及是否簡潔。好特徵的靈活性在於它允許你選擇不復雜的模型，同時執行速度也更快，也更容易理解和維護。特徵選擇四個過程：產生過程，評價函式，停止準則，驗證過程。目

Python & 機器學習之專案實踐

機器學習是一項經驗技能，經驗越多越好。在專案建立的過程中，實踐是掌握機器學習的最佳手段。在實踐過程中，通過實際操作加深對分類和迴歸問題的每一個步驟的理解，達到學習機器學習的目的。預測模型專案模板不能只通過閱讀來掌握機器學習的技能，需要進行大量的練習。

python機器學習之神經網路(二)

來自：http://blog.csdn.net/cui134/article/details/26823101 由於Rosenblatt感知器的侷限性，對於非線性分類的效果不理想。為了對線性分類無法區分的資料進行分類，需要構建多層感知器結構對資料進行分類，多層感

Python機器學習之決策樹案例

# -*- coding: utf-8 -*- __author__ = 'gerry' # 先匯入所有的class import xgboost from numpy import * from s

Python機器學習之特徵工程

相關推薦