1. 程式人生 > >第3章線性回歸

第3章線性回歸

line mil 預測 linear int str .com 判斷 pmi

  1. 簡單線性回歸
方程式:技術分享圖片

技術分享圖片技術分享圖片

技術分享圖片

1.1 估計參數

技術分享圖片技術分享圖片代表第i 個殘差第i 個觀測到的響應值和第i 個用線性模型預測出的響應值之間的差距

殘差平方和(residual sum of squares ,RSS): 技術分享圖片 技術分享圖片 等價於: 技術分享圖片

技術分享圖片 最小二乘法選擇β0和β1來使RSS達到最小。通過微積分運算,使RSS最小的參數估計值為: 技術分享圖片

技術分享圖片 1.2評估系數估計值的準確性 X和Y之間的真實關系為:技術分享圖片技術分享圖片其中技術分享圖片技術分享圖片是均值為零的隨機誤差項 樣本均值μ^ 的標準誤差
(standard error ,寫作SE(μ^) ):
        技術分享圖片

技術分享圖片 其中, σ 是變量Y 的每個實現值Yi 的標準差。標準誤差告訴我們估計μ^偏離μ的實際值的平均量。 計算β0和β1 的標準誤差       技術分享圖片

技術分享圖片 其中技術分享圖片技術分享圖片 技術分享圖片技術分享圖片的估計被稱為殘差標準差技術分享圖片技術分享圖片

標準誤差可用於計算置信區間β1 的95% 置信區間約為: 技術分享圖片技術分享圖片

β0的95% 置信區間約為: 技術分享圖片技術分享圖片

標準誤差也可以用來對系數進行假設檢驗:

  技術分享圖片

技術分享圖片 t統計量:   技術分享圖片

技術分享圖片 p-value很小的時候拒絕零假設,X和Y之間存在關系。典型的拒絕零假設的臨界p 值是5% 或1% 1.3評價模型的準確性
判斷線性回歸的擬合質量通常用兩個相關的量:殘差標準差(RSE)和R^2統計量。 殘差標準差計算公式:   技術分享圖片

技術分享圖片 R^2 統計量衡量了X 和Y 之間的線性關系。相關性的定義為:   技術分享圖片

技術分享圖片 r = Cor(X,Y) ,在簡單的線性回歸中r^2 = R^2 2. 多元線性回歸 技術分享圖片

技術分享圖片 2.1 估計回歸系數 技術分享圖片

同樣使用最小二乘法來進行參數的估計,選擇β0, β1, . . . , βp使殘差平方和最小:

  技術分享圖片

  技術分享圖片

技術分享圖片 技術分享圖片 (1)假設檢驗: 技術分享圖片

技術分享圖片 當響應變量與預測變量無關, F 統計量應該接近1 。一個較大的F 統計量表明,至少有一個廣告媒體與sales 相關
(2)選定重要變量 向前選擇、向後選擇、混合選擇 向前選擇:從零模型開始,建立簡單的線性回歸模型,並把使RSS 最小的變量添加到零模型中。然後再加入一個新變量,得到新的雙變量模型,加人的變量是使新模型的RSS 最小的變量。這一過程持續到滿足某種停止規則為止。 向後選擇:從包含所有變量的模型開始,並刪除p值最大的變量,再重新擬合,再刪除p值最大的變量,持續到滿足某種停止規則為止 3. 回歸模型中的註意事項 (1)outlier離群點:Yi 遠離模型預測值的點,如圖中的點20 技術分享圖片 技術分享圖片 (2)High Leverage Points高杠桿點: 表示觀測點X i是異常的,如圖中的點41 技術分享圖片 技術分享圖片 (3)共線性 共線性( collinearity) 是指兩個或更多的預測變量高度相關。 使用方差膨脹因子(variance inflation factor , VIF)來評估多重共線性: 技術分享圖片

技術分享圖片

技術分享圖片技術分享圖片解決辦法:

1.從回歸中剔除一個問題變量 2.共線變量組合成一個單一的預測變量

第3章線性回歸