1. 程式人生 > >機器學習(三)線性迴歸、廣義線性迴歸、非線性迴歸

機器學習(三)線性迴歸、廣義線性迴歸、非線性迴歸

機器學習(三)線性迴歸模型、廣義線性迴歸模型、非線性迴歸模型

 

線性迴歸(資料集要滿足正態分佈)

一元線性迴歸模型:

在這裡會想到,如何確定方程中的係數呢?我們先來了解最小二乘法,簡單來說就是這個點作y軸的平行線與直線相交,那一段y值的平方求和起來最小就是了

那我們怎麼求呢?在這之前大家先要了解一些偏導數的知識

為了方便大家理解,舉一個通俗易懂的例子

 

多元線性迴歸模型

也就是一元線性迴歸是一個因素的,多元的話有多個因素建模,當考慮的因素為2個的話,還可以用三維座標檢視,因素多的話就不太好畫出來了

使用的方法還是最小二乘法,還是偏導數,不過不像一元線性迴歸那樣是二元一次方程組了,變為m+1元一次方程組

 

虛擬變數

在我們多元線性迴歸模型的時候,可能會遇到非連續性的變數,這下我們該怎麼辦??

比如,性別男和女,不可能就用0,1來直接扔進去模擬(簡單來說就是分情況,針對不同情況模擬當然模擬效果就會好一點)

介紹一下啞變數(虛擬變數):

為了簡便,現在模型的維度就有因變數銷售額,自變數性別,單價

  • 相加模型(隻影響截距項)

把性別的男女,新增兩個變數

性別,單價---->單價(h),isman,iswoman

y=a+bh+c*isman+d*iswoman

隻影響截距的意思,分多種情況擬合出來的,得出來的不同情況模型永遠是平行的

 

  • 乘法模型(隻影響斜率)

性別,單價---->單價(h),isman*單價,iswoman*單價

y=a+c*isman*h+d*iswoman*h

 

  • 混合模型(都影響)

性別,單價---->單價(h),isman*單價,iswoman*單價,isman,iswoman

y=a+c*isman*h+d*iswoman*h+e*isman+f*iswoman

 

線性迴歸會遇到以下的問題

  • 對於多元線性迴歸如何選取變數?

逐步迴歸(這種方法不是很好,Lasso會比較好)

裡面的指標指的是什麼指標呢?

 

怎麼評價我們模擬的模型好不好呢?需要迴歸診斷

 樣本是否符合正態分佈假設?

R語言裡面有專門的函式


 是否存在離群值導致模型產生較大誤差?

作圖觀察剔除


 線性模型是否合理?誤差是否滿足獨立性、等方差、正態分佈等假設條件?


 是否存在多重共線性?

 

廣義線性迴歸模型

常見的廣義線性迴歸

邏輯迴歸

上面的例題利用邏輯迴歸我們算得

 

非線性迴歸模型

  • 對數法
  • 指數法
  • 冪函式法
  • 多項式迴歸模型