1. 程式人生 > 實用技巧 >機器學習 03 Moultiple Linear Regression

機器學習 03 Moultiple Linear Regression

提示:文章寫完後,目錄可以自動生成,如何生成可參考右邊的幫助文件

文章目錄


機器學習03 Multiple Linear Regression

提示:
多元線性迴歸;LabelEncoder; OneHotEncoder


提示:以下是本篇文章正文內容,下面案例可供參考

一、程式碼問題

示例:pandas 是基於NumPy 的一種工具,該工具是為了解決資料分析任務而建立的。

二、使用步驟

1.引入庫

在這裡插入圖片描述
將類別型變數進行One-Hot 編碼過程中程式碼出現問題,進行如上修改即可以執行,參考連結:

新增連結描述

2.LabelEncoder VS OneHotEncoder

程式碼如下(示例):

參考連結如下:
新增連結描述
解釋: LabelEncoer因為過多的考慮了類別不同賦予不同的值,將原始類別變數引入數值大小的比較,所以可考慮OneHotEncoder,並且實際操作中需要先將變臉轉為Label後再轉為OneHot
新增連結描述
解釋: 類比兩者的差異,著重講述OneHot, 理解enc.n_values_,enc.feature_indices_,通過理解enc.feature_indices_,可以知道onehot也存在問題,使得資料變得比較稀疏。
在這裡插入圖片描述

新增連結描述
解釋: 瞭解什麼是虛擬變數陷阱,對虛擬變數的解釋可以看PPT

新增連結描述,對於這個案例來說,存在所謂的虛擬變數陷阱。意思就是:其實state只有3種取值,理論上2位二進位制就可以表示,而這裡用100,010,001三種表示。其實若把第一位統一去掉,變為00,10,01也是可以區分的。所以這裡需要做一個處理:
躲避虛擬變數陷阱,把第一列去掉了
X = X[: , 1:]
在這裡插入圖片描述

該處使用的url網路請求的資料。


總結