機器學習(三)線性迴歸、廣義線性迴歸、非線性迴歸
機器學習(三)線性迴歸模型、廣義線性迴歸模型、非線性迴歸模型
線性迴歸(資料集要滿足正態分佈)
一元線性迴歸模型:
在這裡會想到,如何確定方程中的係數呢?我們先來了解最小二乘法,簡單來說就是這個點作y軸的平行線與直線相交,那一段y值的平方求和起來最小就是了
那我們怎麼求呢?在這之前大家先要了解一些偏導數的知識
為了方便大家理解,舉一個通俗易懂的例子
多元線性迴歸模型
也就是一元線性迴歸是一個因素的,多元的話有多個因素建模,當考慮的因素為2個的話,還可以用三維座標檢視,因素多的話就不太好畫出來了
使用的方法還是最小二乘法,還是偏導數,不過不像一元線性迴歸那樣是二元一次方程組了,變為m+1元一次方程組
虛擬變數
在我們多元線性迴歸模型的時候,可能會遇到非連續性的變數,這下我們該怎麼辦??
比如,性別男和女,不可能就用0,1來直接扔進去模擬(簡單來說就是分情況,針對不同情況模擬當然模擬效果就會好一點)
介紹一下啞變數(虛擬變數):
為了簡便,現在模型的維度就有因變數銷售額,自變數性別,單價
- 相加模型(隻影響截距項)
把性別的男女,新增兩個變數
性別,單價---->單價(h),isman,iswoman
y=a+bh+c*isman+d*iswoman
隻影響截距的意思,分多種情況擬合出來的,得出來的不同情況模型永遠是平行的
- 乘法模型(隻影響斜率)
性別,單價---->單價(h),isman*單價,iswoman*單價
y=a+c*isman*h+d*iswoman*h
- 混合模型(都影響)
性別,單價---->單價(h),isman*單價,iswoman*單價,isman,iswoman
y=a+c*isman*h+d*iswoman*h+e*isman+f*iswoman
線性迴歸會遇到以下的問題
- 對於多元線性迴歸如何選取變數?
逐步迴歸(這種方法不是很好,Lasso會比較好)
裡面的指標指的是什麼指標呢?
怎麼評價我們模擬的模型好不好呢?需要迴歸診斷
樣本是否符合正態分佈假設?
R語言裡面有專門的函式
是否存在離群值導致模型產生較大誤差?
作圖觀察剔除
線性模型是否合理?誤差是否滿足獨立性、等方差、正態分佈等假設條件?
是否存在多重共線性?
廣義線性迴歸模型
常見的廣義線性迴歸
邏輯迴歸
上面的例題利用邏輯迴歸我們算得
非線性迴歸模型
- 對數法
- 指數法
- 冪函式法
- 多項式迴歸模型