1. 程式人生 > >ML筆記 - 迴歸分析概述

ML筆記 - 迴歸分析概述

基本概念

變數之間的非嚴格函式關係: 變數x、y之間存在某種密切的聯絡,但並非嚴格的函式關係(非確定性關係)。
迴歸: 迴歸是處理兩個或兩個以上變數之間互相依賴的定量關係的一種統計方法和技術,變數之間的關係並非確定的函式關係,通過一定的概率分佈來描述。
線性和非線性: 線性(Linear)的嚴格定義是一種對映關係,其對映關係滿足可加性和齊次性。通俗來講就是兩個變數存在一次方函式關係,在平面座標系中表現為一條直線。不滿足線性即為非線性(non-linear)。
線性迴歸(Linear Regression): 在迴歸分析中,如果自變數和因變數之間存在著線性關係,則被稱作線性迴歸。如果只有一個因變數和一個自變數,則被稱作一元線性迴歸,如果有一個因變數和多個自變數,則被稱作多元迴歸。

迴歸模型的一般形式

在這裡插入圖片描述

迴歸模型的基本前置假設

  • 零均值:隨機誤差項均值為0,保證未考慮的因素對被解釋變數沒有系統性的影響。
  • 同方差:隨機誤差項方差相同,在給定x的情況下,隨機誤差的條件方差為某個常數。
  • 無自相關:兩個隨機誤差之間不相關。
  • 正態分佈:隨機誤差符合正態分佈。
  • 解釋變數x1、x2、x3、… 、xn是非隨機變數,其觀測值是常數。
  • 解釋變數之間不存在精確的線性關係。
  • 樣本個數要多於解釋變數的個數。

建立迴歸模型的流程

需求分析,明確變數

瞭解相關需求,明確場景,清楚需要解釋的指標(因變數),並根據相關業務知識選取與之有關的變數作為解釋變數(自變數)。

資料收集加工

根據上一步分析得到的解釋變數,去收集相關的資料(時序資料、截面資料等),對得到的資料進行清洗、加工,並根據資料情況調整解釋變數,並判斷是否滿足基本假設。

確定迴歸模型

瞭解資料集,使用繪圖工具繪製變數樣本散點圖或使用其他分析工具分析變數的關係,根據結果選擇迴歸模型,如:線性迴歸模型、指數形式的迴歸模型等。

模型引數估計

模型確定後,基於收集、整理的樣本資料,估計模型中的相關引數。最常用的方法是最小二乘法(最小平方法),在不滿足基本假設的情況下還會採取嶺迴歸、主成分迴歸、偏最小二乘法等。
最小二乘法:也叫最小平方法,通過最小化誤差的平方和尋找資料的最佳函式匹配的方法。
在這裡插入圖片描述

模型檢驗優化

引數確定後,得到模型。此時需要對模型進行統計意義上的檢驗,包括對迴歸方程的顯著性檢驗、迴歸係數的顯著性檢驗、擬合優度檢驗、異方差檢驗、多重共線性檢驗等。還需要結合實際場景,判斷該模型是否具有實際意義。

模型部署應用

模型檢驗通過後,可以使用模型進行相關的分析、應用,包括因素分析、控制、預測等。

  • 變數關係:確定幾個特定變數之間是否存在相關關係,如果存在的話,找出它們之間合適的數學表示式。
  • 因素分析:迴歸模型對解釋變數和被解釋變數之間的關係進行了度量,從各個解釋變數的係數可以發現各因素對最終結果的影響大小。
  • 控制:給定被解釋變數的值,根據模型來控制解釋變數的值。
  • 預測:根據迴歸模型,可以基於已知的一個或多個變數預測另一個變數的取值,並可以瞭解這個取值精確到什麼程度。

迴歸模型的特點

迴歸模型在很多領域都有廣泛的應用,具有以下優點:

  • 模型簡單,建模和應用都比較容易
  • 有堅實的統計理論支撐
  • 定量分析各變數之間的關係
  • 模型預測結果可以通過誤差分析精確瞭解

存在的缺點:

  • 假設條件比較多且相對嚴格
  • 變數選擇對模型影響較大