1. 線性迴歸梳理
阿新 • • 發佈:2018-12-17
迴歸在數學上來說是給定一個點集,就能夠用一條曲線去擬合之。如果這個曲線是一條直線(超平面),那就被稱為線性迴歸。若不是一條直線則稱為非線性迴歸,常見有多項式迴歸、邏輯迴歸等。
線性模型優劣:
優點:結果易於理解,計算上不復雜;
缺點:對非線性的資料擬合不好
1. 線性模型表示
一般線性模型表示: 其中 等表示不同的特徵, 等表示特徵權重
向量形式寫成:
2. 最小二乘法
線性模型用一個直線(平面)擬合數據點,找出一個最好的直線(平面)即要求每個真實點距離平面的距離最近。即使得殘差平方和(Residual Sum of Squares, RSS)最小:
另一種情況下,為消除樣本量的差異,也會用最小化均方誤差(MSE)擬合:
3. 誤差
真實值與誤差值之間會肯定會存在差異(用 表示誤差)
且誤差 是獨立並且同分布的, 並且服從均值為 0 方差 的高斯分佈
故對每個真實樣本,有
4. 最大似然估計
最大似然估計(maximum likelihood estimation, MLE)一種重要而普遍的求估計量的方法。通過調整估計引數,使得已經實現的樣本發生概率最大。
由於誤差服從高斯分佈,先不考慮方差,則出現誤差 的概率為: 將誤差代入以上公式,得: 對已發生的樣本,出現的概率為: 兩邊去取對數: 使出現概率最大,即使上面方程達到最大,通過簡單變換轉換成求最小值問題,得使以下方程最小: 以上方程與最小二乘法相似,以下均以此函式作為損失函式。
5. 求解
主要求解方法有兩種,正規方程法以及梯度下降法。有時候,寫成矩陣寫法會方便我們計算: