第3章線性回歸
阿新 • • 發佈:2018-01-19
line mil 預測 linear int str .com 判斷 pmi (standard error ,寫作SE(μ^) ):
判斷線性回歸的擬合質量通常用兩個相關的量:殘差標準差(RSE)和R^2統計量。
殘差標準差計算公式:
(2)選定重要變量
向前選擇、向後選擇、混合選擇
向前選擇:從零模型開始,建立簡單的線性回歸模型,並把使RSS 最小的變量添加到零模型中。然後再加入一個新變量,得到新的雙變量模型,加人的變量是使新模型的RSS 最小的變量。這一過程持續到滿足某種停止規則為止。
向後選擇:從包含所有變量的模型開始,並刪除p值最大的變量,再重新擬合,再刪除p值最大的變量,持續到滿足某種停止規則為止
3. 回歸模型中的註意事項
(1)outlier離群點:Yi 遠離模型預測值的點,如圖中的點20
(2)High Leverage Points高杠桿點: 表示觀測點X i是異常的,如圖中的點41
(3)共線性
共線性( collinearity) 是指兩個或更多的預測變量高度相關。
使用方差膨脹因子(variance inflation factor , VIF)來評估多重共線性:
- 簡單線性回歸
1.1 估計參數
代表第i 個殘差第i 個觀測到的響應值和第i 個用線性模型預測出的響應值之間的差距
殘差平方和(residual sum of squares ,RSS): 等價於:最小二乘法選擇β0和β1來使RSS達到最小。通過微積分運算,使RSS最小的參數估計值為:
1.2評估系數估計值的準確性 X和Y之間的真實關系為:,其中是均值為零的隨機誤差項, 樣本均值μ^ 的標準誤差
其中, σ 是變量Y 的每個實現值Yi 的標準差。標準誤差告訴我們估計μ^偏離μ的實際值的平均量。 計算β0和β1 的標準誤差:
其中 對的估計被稱為殘差標準差
標準誤差可用於計算置信區間。β1 的95% 置信區間約為:
β0的95% 置信區間約為:
標準誤差也可以用來對系數進行假設檢驗:
t統計量:
p-value很小的時候拒絕零假設,X和Y之間存在關系。典型的拒絕零假設的臨界p 值是5% 或1% 1.3評價模型的準確性
R^2 統計量衡量了X 和Y 之間的線性關系。相關性的定義為:
r = Cor(X,Y) ,在簡單的線性回歸中r^2 = R^2 2. 多元線性回歸
2.1 估計回歸系數
同樣使用最小二乘法來進行參數的估計,選擇β0, β1, . . . , βp使殘差平方和最小:
(1)假設檢驗:
當響應變量與預測變量無關, F 統計量應該接近1 。一個較大的F 統計量表明,至少有一個廣告媒體與sales 相關
解決辦法:
1.從回歸中剔除一個問題變量 2.把共線變量組合成一個單一的預測變量第3章線性回歸