機器學習—迴歸與分類4-4（支援向量機演算法）

阿新 • • 發佈：2022-03-15

使用支援向量機預測黑色星期五花銷

主要步驟流程：

資料集連結：https://www.cnblogs.com/ojbtospark/p/16005660.html

1. 匯入包

In [ ]:

# 匯入包
import numpy as np
import pandas as pd

2. 匯入資料集

In [ ]:

# 匯入資料集
data = pd.read_csv('BlackFriday.csv')
data.head()

3. 資料預處理

3.1 檢測並處理缺失值

In [ ]:

# 檢測缺失值
null_df = data.isnull().sum()
null_df

In [ ]:

# 刪除缺失列
data = data.drop(['Product_Category_2', 'Product_Category_3'], axis = 1)
data.head()

In [ ]:

# 再次檢測缺失值
null_df = data.isnull().sum()
null_df

3.2 刪除無用的列

In [ ]:

# 
 刪除無用的列
data = data.drop(['User_ID', 'Product_ID'], axis = 1)

3.3 檢查類別型變數

In [ ]:

# 檢查類別型變數
print(data.dtypes)

In [ ]:

# 轉換變數型別
data['Stay_In_Current_City_Years'].replace('4+', 4, inplace = True)
data['Stay_In_Current_City_Years'] = data['Stay_In_Current_City_Years 
'].astype('int64')
data['Product_Category_1'] = data['Product_Category_1'].astype('object')
data['Occupation'] = data['Occupation'].astype('object')
data['Marital_Status'] = data['Marital_Status'].astype('object')

In [ ]:

# 檢查類別型變數
print(data.dtypes)

3.4 標籤編碼&獨熱編碼

In [ ]:

# 標籤編碼&獨熱編碼
data = pd.get_dummies(data, drop_first = True)
data.head()

3.5 得到自變數和因變數

In [ ]:

# 得到自變數和因變數
y = data['Purchase'].values
data = data.drop(['Purchase'], axis = 1)
x = data.values

3.6 拆分訓練集和測試集

In [ ]:

# 拆分訓練集和測試集
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = 1)
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = 1)
print(x_train.shape)
print(x_test.shape)
print(y_train.shape)
print(y_test.shape)

3.7 特徵縮放

In [ ]:

# 特徵縮放
from sklearn.preprocessing import StandardScaler
sc_x = StandardScaler()
x_train = sc_x.fit_transform(x_train)
x_test = sc_x.transform(x_test)
sc_y = StandardScaler()
y_train = np.ravel(sc_y.fit_transform(y_train.reshape(-1, 1)))

4. 使用不同的引數構建支援向量機模型

4.1 模型1：構建支援向量機模型

4.1.1 構建模型

程式大約需要執行2分鐘

In [ ]:

# 使用不同的引數構建支援向量機模型
# 模型1：構建支援向量機模型（kernel=rbf）
from sklearn.svm import SVR
regressor = SVR(kernel = 'rbf', gamma='scale', C=1.0, epsilon=0.1, verbose=True)
regressor.fit(x_train, y_train)

4.1.2 測試集做預測

In [ ]:

# 在測試集做預測
y_pred = regressor.predict(x_test)
y_pred[:5]

In [ ]:

# y_pred變回特徵縮放之前的
y_pred = sc_y.inverse_transform(y_pred)
y_pred[:5]

4.1.3 評估模型效能

In [ ]:

# 評估模型效能
from sklearn.metrics import r2_score
r2 = r2_score(y_test, y_pred)
print("R2 Score:", r2)

4.2 模型2：構建支援向量機模型

程式大約需要執行2分鐘

In [ ]:

# 模型2：構建支援向量機模型（kernel=poly, degree=2）
regressor = SVR(kernel = 'poly', degree=2, gamma='scale', C=1.0, epsilon=0.1, verbose=True)
regressor.fit(x_train, y_train)

In [ ]:

# 在測試集做預測
y_pred = regressor.predict(x_test)

In [ ]:

# y_pred變回特徵縮放之前的
y_pred = sc_y.inverse_transform(y_pred)

In [ ]:

# 評估模型效能
r2 = r2_score(y_test, y_pred)
print("R2 Score:", r2)

4.3 模型3：構建支援向量機模型

程式大約需要執行2分鐘

In [ ]:

# 模型3：構建支援向量機模型（kernel=poly, degree=3）
regressor = SVR(kernel = 'poly', degree=3, gamma='scale', C=1.0, epsilon=0.1, verbose=True)
regressor.fit(x_train, y_train)

In [ ]:

# 在測試集做預測
y_pred = regressor.predict(x_test)

In [ ]:

# y_pred變回特徵縮放之前的
y_pred = sc_y.inverse_transform(y_pred)

In [ ]:

# 評估模型效能
r2 = r2_score(y_test, y_pred)
print("R2 Score:", r2)

結論：

由上面3個模型可見，不同超引數對模型效能的影響不同。

機器學習—迴歸與分類4-4（支援向量機演算法）

使用支援向量機預測黑色星期五花銷主要步驟流程：資料集連結：https://www.cnblogs.com/ojbtospark/p/16005660.html

機器學習—迴歸與分類4-2（隨機森林演算法）

使用隨機森林預測德國人信貸風險主要步驟流程： 1. 匯入包 2. 匯入資料集 3. 資料預處理

機器學習—迴歸與分類4-3（AdaBoost演算法）

使用AdaBoost預測黑色星期五花銷主要步驟流程： 1. 匯入包 2. 匯入資料集 3. 資料預處理

【機器學習與R語言】9- 支援向量機

目錄1.理解支援向量機（SVM）1）SVM特點2）用超平面分類3）對非線性空間使用核函式2. 支援向量機應用示例1）收集資料2）探索和準備資料3）訓練資料4）評估模型5）提高效能

機器學習—迴歸2-4（嶺迴歸）

使用嶺迴歸根據多個因素預測醫療費用資料集連結：https://www.cnblogs.com/ojbtospark/p/16005626.html

【機器學習實戰】-- Titanic 資料集（4）-- 支援向量機

1. 寫在前面: 本篇屬於實戰部分，更注重於演算法在實際專案中的應用。如需對感知機演算法本身有進一步的瞭解，可參考以下連結，在本人學習的過程中，起到了很大的幫助：

機器學習數學基礎Datawhale-8月（4）筆記

機器學習數學基礎Datawhale-8月（4）事先宣告：本文中未作說明的圖片均出自《2022考研數學張宇基礎30講》

C#學習筆記-鐵錳C#入門視訊P29 介面例子4-5（介面單元測試+Moq）

1 using System; 2 using ConsoleApp24; 3 using Microsoft.VisualStudio.TestTools.UnitTesting; 4 using Moq;

機器學習筆記—模式分類（四）引數判別估計法3（貝葉斯引數估計）

前序文章：機器學習筆記—模式分類（一）緒論&貝葉斯決策論機器學習筆記—模式分類（二）引數判別估計法（最大似然估計和貝葉斯引數估計）1

【機器學習實戰】-- Titanic 資料集（3）-- 邏輯迴歸

1. 寫在前面: 本篇屬於實戰部分，更注重於演算法在實際專案中的應用。如需對邏輯迴歸演算法本身有詳細的瞭解，可參考以下連結，在本人學習的過程中，起到了很大的幫助：

十二、機器學習演算法整合（knn、樸素貝葉斯、決策樹、隨機森林、線性迴歸、嶺迴歸、邏輯迴歸、聚類、支援向量機）

技術標籤：機器學習決策樹聚類機器學習一、需要匯入的庫： \'\'\' 作者:小宇最後完成日期：2021.2.28

機器學習之監督學習--（分類）支援向量機SVM①

技術標籤：機器學習python支援向量機分類演算法人工智慧 SVM簡單例子 from sklearn import svm

機器學習4-支援向量機

師兄部落格原文地址目錄一些問題LSSVM的Python實現模型訓練核函式模型使用關於$\\gamma$和$\\sigma$交叉驗證整體框架

[原始碼解析]機器學習引數伺服器ps-lite(4) ----- 應用節點實現

本文是引數伺服器的第四篇，介紹KVWorker, KVServer。 [原始碼解析]機器學習引數伺服器ps-lite(4) ----- 應用節點實現

機器學習迴歸分類

Logit模型的經濟學含義：PM10保持不變的時候，PM2.5增加一個單位，取1與取0的概率比增加e^0.05（優勢比）

機器學習—迴歸2-5（LASSO迴歸）

使用LASSO迴歸根據多個因素預測醫療費用主要步驟流程： 1. 匯入包 2. 匯入資料集

機器學習—迴歸2-1（簡單線性迴歸）

使用簡單線性迴歸根據年齡預測醫療費用主要步驟流程： 1. 匯入包 2. 匯入資料集

機器學習：支援向量機識別手寫英文字母 SMO演算法實現二元分類器

本文只構建一個能夠識別一種英文符號的SVM，在此選擇了C字元。一、SVM構建 import numpy as np

mooc機器學習第七天-分類支援向量機svm.svc

1.函式簡介 sklearn.svm.SVC(C=1.0,kernel=\'rbf\',degree=3,gamma=\'auto\',coef0=0.0,shrinking=True,probability=False,

基於機器學習的文字分類NLP基本介紹

學習目的： 1 學會TF-IDF的原理和使用 2 使用sklearn的機器學習模型完成文字分類

機器學習—迴歸與分類4-4（支援向量機演算法）

使用支援向量機預測黑色星期五花銷

主要步驟流程：

1. 匯入包

2. 匯入資料集

3. 資料預處理

3.1 檢測並處理缺失值

3.2 刪除無用的列

3.3 檢查類別型變數

3.4 標籤編碼&獨熱編碼

3.5 得到自變數和因變數

3.6 拆分訓練集和測試集

3.7 特徵縮放

4. 使用不同的引數構建支援向量機模型

4.1 模型1：構建支援向量機模型

4.1.1 構建模型

4.1.2 測試集做預測

4.1.3 評估模型效能

4.2 模型2：構建支援向量機模型

4.3 模型3：構建支援向量機模型

相關推薦