1. 程式人生 > 其它 >迴歸分析05:迴歸引數的估計(3)

迴歸分析05:迴歸引數的估計(3)

本文主要介紹了迴歸診斷不滿足經典假設的引數估計問題,包括Box-Cox變換和廣義最小二乘估計,最後介紹了多重共線性問題。 目錄

Chapter 5:迴歸引數的估計(3)

3.5 Box-Cox 變換

接下來我們關注的問題是,經過迴歸診斷後,觀測資料不滿足線性假設、方差齊性假設、不相關假設和正態性假設中的一個或若干個的情況。我們需要對有問題的資料採取一些治療措施,資料變換便是其中之一,其中 Box-Cox 變換是實踐中比較行之有效的一種資料變換方法。

\(\lambda\) 是一個待定的變換引數,Box-Cox 變換是對因變數作如下的變換:

\[y^{(\lambda)}=\left\{\begin{array}{l} \cfrac{y^\lambda-1}{\lambda} \ , & \lambda\neq0 \ , \\ \ln y \ , & \lambda=0 \ . \end{array}\right. \]

Box-Cox 變換是一族變換,它包括了許多常見的變換,如對數變換 \((\lambda=0)\)

,倒數變換 \((\lambda=-1)\) 和平方根變換 \((\lambda=1/2)\) 等等。

對因變數的 \(n\) 個觀測值 \(y_1,y_2,\cdots,y_n\) 作 Box-Cox 變換,得到變換後的觀測向量為

\[Y^{(\lambda)}=\left(y^{(\lambda)}_1,y^{(\lambda)}_2,\cdots,y^{(\lambda)}_n\right)' \ , \]

我們希望變換引數 \(\lambda\) 能夠使得 \(Y^{(\lambda)}\) 滿足一個理想的線性迴歸模型,即

\[Y^{(\lambda)}=X\beta+e \ , \quad e\sim N\left(0,\sigma^2I_n\right) \ . \]

因此,我們要去變換後的觀測向量 \(Y^{(\lambda)}\)

與迴歸自變數之間具有線性相關關係,誤差滿足方差齊性、相互獨立和正態分佈。可以看出,Box-Cox 變換是通過對引數 \(\lambda\) 的選擇,達到對原來資料的綜合治理,使其滿足一個正態線性迴歸模型的所有假設條件。

下面用極大似然方法來確定 \(\lambda\) 的取值,寫出 \(Y^{(\lambda)}\) 的似然函式

\[L\left(\beta,\sigma^2;Y^{(\lambda)}\right)=\left(\frac{1}{\sqrt{2\pi\sigma^2}}\right)^n\exp\left\{-\frac{1}{2\sigma^2}\left(Y^{(\lambda)}-X\beta\right)'\left(Y^{(\lambda)}-X\beta\right)\right\} \ , \]

所以 \(Y\)

的似然函式為

\[L\left(\beta,\sigma^2;Y\right)=\left(\frac{1}{\sqrt{2\pi\sigma^2}}\right)^n\exp\left\{-\frac{1}{2\sigma^2}\left(Y^{(\lambda)}-X\beta\right)'\left(Y^{(\lambda)}-X\beta\right)\right\}|J| \ , \]

其中 \(J\) 為變換的 Jacobi 行列式

\[J=\prod_{i=1}^n\frac{{\rm d}y_i^{(\lambda)}}{{\rm d}y_i}=\prod_{i=1}^ny_i^{\lambda-1} \ . \]

\(\ln L\left(\beta,\sigma^2;Y\right)\) 關於 \(\beta\)\(\sigma^2\) 求導並令其等於 \(0\) ,可得 \(\beta\)\(\sigma^2\) 的極大似然估計為

\[\left\{\begin{array}{l} \hat\beta(\lambda)=\left(X'X\right)^{-1}X'Y^{(\lambda)} \ , \\ \\ \hat\sigma^2(\lambda)=\dfrac1n{Y^{(\lambda)}}'\left(I_n-H\right)Y^{(\lambda)}\xlongequal{def}\dfrac1n{\rm RSS}\left(\lambda,Y^{(\lambda)}\right) \ . \end{array}\right. \]

對應的極大似然為

\[L_\max(\lambda)=L\left(\hat\beta(\lambda),\hat\sigma^2(\lambda)\right)=\left(2\pi e\right)^{-n/2}\cdot|J|\cdot\left(\frac{{\rm RSS}\left(\lambda,Y^{(\lambda)}\right)}n\right)^{-n/2} \ . \]

這是關於 \(\lambda\) 的函式,繼續求其對數似然的最大值來確定 \(\lambda\) 的極大似然估計,

\[\begin{aligned} \ln L_\max(\lambda)&=-\frac n2\ln\left[{\rm RSS}\left(\lambda,Y^{(\lambda)}\right)\right]+\ln|J|-\frac n2\ln(2\pi)-\frac n2 \\ \\ &=-\frac n2\ln\left[\frac{{Y^{(\lambda)}}'}{|J|^{1/n}}\left(I_n-H\right)\frac{{Y^{(\lambda)}}}{|J|^{1/n}}\right]-\frac n2\ln(2\pi)-\frac n2 \\ \\ &\xlongequal{def}-\frac n2\ln\left[{\rm RSS}\left(\lambda,Z^{(\lambda)}\right)\right]-\frac n2\ln(2\pi)-\frac n2 \ , \end{aligned} \]

其中

\[Z^{(\lambda)}=\left(z^{(\lambda)}_1,z^{(\lambda)}_2,\cdots,z^{(\lambda)}_n\right)' =\frac{Y^{(\lambda)}}{|J|^{1/n}} \ , \quad {\rm RSS}\left(\lambda,Z^{(\lambda)}\right)={Z^{(\lambda)}}'\left(I_n-H\right)Z^{(\lambda)} \ . \]

可以看出,求 \(\ln L_\max(\lambda)\) 的最大值,只需求 \({\rm RSS}\left(\lambda,Z^{(\lambda)}\right)\) 的最小值。雖然我們很難找到滿足條件的 \(\lambda\) 的解析表示式,但這會給計算機上的實現帶來很大的方便。

Box-Cox 變換計算機實現的具體步驟:

  1. 對給定的 \(\lambda\) 值,計算 \(z_i^{(\lambda)},\,i=1,2,\cdots,n\)
  2. 計算殘差平方和 \({\rm RSS}\left(\lambda,Z^{(\lambda)}\right)={Z^{(\lambda)}}'\left(I_n-H\right)Z^{(\lambda)}\)
  3. 給定一系列 \(\lambda\) 值,重複上述步驟,得到一系列相應的殘差平方和,找出使 \({\rm RSS}\left(\lambda,Z^{(\lambda)}\right)\) 達到最小值的 \(\lambda\) 值。

3.6 廣義最小二乘估計

在前面的討論中,我們總是假定線性迴歸模型的誤差是方差齊性且不相關的,即 \({\rm Cov}(e)=\sigma^2I_n\) 。但是在許多實際問題中,資料往往是不滿足這個假設的。上一節中,我們介紹的 Cox-Box 變換是一種通用的但較為複雜的修正資料的措施,這一節我們僅考慮不滿足方差齊性且不相關假設的問題,並對此提出有針對性的解決方案。

我們要討論的是具有異方差和自相關問題的線性迴歸模型為

\[Y=X\beta+e \ , \quad {\rm E}\left(e\right)=0 \ , \quad {\rm Cov}\left(e\right)=\sigma^2\Sigma \ . \]

這裡 \(\Sigma\) 是一個對稱正定矩陣,假設 \(\Sigma\) 是完全已知的,我們的主要目的是估計 \(\beta\)

因為 \(\Sigma\) 是對稱正定矩陣,所以存在 \(n\times n\) 的正交矩陣 \(P\) 使得

\[\Sigma=P\Lambda P' \ , \quad \Lambda={\rm diag}\left(\lambda_1,\lambda_2,\cdots,\lambda_n\right) \ ,\quad \]

這裡 \(\lambda_i>0,\,i=1,2,\cdots,n\)\(\Sigma\) 的特徵根。記 \(\Sigma^{1/2}\)\(\Sigma\) 的平方根陣,\(\Sigma^{-1/2}\)\(\Sigma^{1/2}\) 的逆矩陣,滿足

\[\Sigma^{1/2}=P{\rm diag}\left(\sqrt{\lambda_1},\sqrt{\lambda_2},\cdots,\sqrt{\lambda_n}\right) P' \ , \quad \Sigma^{1/2}\cdot\Sigma^{1/2}=\Sigma \ . \]

我們對上述線性迴歸模型進行正交變換,用 \(\Sigma^{-1/2}\) 左乘,記

\[Z=\Sigma^{-1/2}Y \ , \quad U=\Sigma^{-1/2}X \ , \quad \varepsilon=\Sigma^{-1/2}e \ . \]

因為 \({\rm Cov}(\varepsilon)=\Sigma^{-1/2}\sigma^2\Sigma\Sigma^{-1/2}=\sigma^2I_n\) ,於是得到如下的線性迴歸模型

\[Z=U\beta+\varepsilon \ , \quad {\rm E}\left(\varepsilon\right)=0 \ , \quad {\rm Cov}\left(\varepsilon\right)=\sigma^2I_n \ . \]

在新模型中,可得 \(\beta\) 的最小二乘估計為

\[\beta^*=\left(U'U\right)^{-1}U'Z=\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}Y \ . \]

我們稱之為 \(\beta\) 的廣義最小二乘估計 (GLSE) ,注意它與 \(\sigma^2\) 無關,也具有良好的統計性質。

定理 3.6.1 對於具有異方差和自相關問題的線性迴歸模型,下列結論成立:

(1) \({\rm E}\left(\beta^*\right)=\beta\)

(2) \({\rm Cov}\left(\beta^*\right)=\sigma^2\left(X'\Sigma^{-1}X\right)^{-1}\)

(3) 對任意的 \(p+1\) 維列向量 \(c\) ,有 \(c'\beta^*\)\(c'\beta\) 的唯一最小方差線性無偏估計。

(1) 根據 \(\beta\) 的廣義最小二乘估計的表示式,求數學期望可得

\[\begin{aligned} {\rm E}\left(\beta^*\right)&=\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}{\rm E}\left(Y\right)=\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}X\beta=\beta \ . \end{aligned} \]

(2) 利用定理 2.1.3 可得

\[\begin{aligned} {\rm Cov}\left(\beta^*\right)&={\rm Cov}\left[\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}Y\right] \\ \\ &=\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}{\rm Cov}\left(Y\right)\left[\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}\right]' \\ \\ &=\sigma^2\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}\Sigma\left[\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}\right]' \\ \\ &=\sigma^2\left(X'\Sigma^{-1}X\right)^{-1} \ . \end{aligned} \]

(c) 設 \(b'Y\)\(c'\beta\) 的任意線性無偏估計,對於正交變換後的模型,我們有

\[c'\beta^*=c'\left(U'U\right)^{-1}U'Z \ , \quad b'Y=b'\Sigma^{1/2}\Sigma^{-1/2}Y=b'\Sigma^{1/2}Z \ , \]

\(c'\beta^*\)\(c'\beta\) 的最小二乘估計,它是 \(c'\beta\) 的線性無偏估計,而 \(b'Y=b'\Sigma^{1/2}Z\) 也是 \(c'\beta\) 的線性無偏估計。所以對正交變換後的模型應用 Gauss-Markov 定理可知 \(c'\beta^*\)\(c'\beta\) 的唯一最小方差線性無偏估計。

廣義最小二乘估計最常見的應用場景就是因變數的不同觀測具有異方差的情形,即

\[{\rm Cov}\left(e\right)={\rm diag}\left(\sigma_1^2,\sigma_2^2,\cdots,\sigma_n^2\right) \ , \]

這裡的 \(\sigma_i^2,\,i=1,2,\cdots,n\) 不全相等。記 \(x_1',x_2',\cdots,x_n'\) 分別是設計矩陣 \(X\)\(n\) 個行向量,容易推出

\[\beta^*=\left(\sum_{i=1}^n\frac{x_ix_i'}{\sigma_i^2}\right)^{-1}\left(\sum_{i=1}^n\frac{x_iy_i}{\sigma_i^2}\right) \ . \]

兩個和式分別為 \(x_ix_i'\)\(x_iy_i\) 的權重為 \(1/\sigma_i^2\) 的加權和,故這裡 \(\beta^*\) 也稱為加權最小二乘估計 (WLSE) 。實際中的 \(\sigma_i^2\) 往往是未知的,這時我們需要設法求得它們的估計 \(\hat\sigma_i^2\) ,然後用 \(\hat\sigma_i^2\) 代替 \(\sigma_i^2\) 進行估計,這種估計方法稱為兩步估計。

3.7 多重共線性

3.7.1 多重共線性的定義

在之前的討論中,最小二乘估計是需要假設設計矩陣 \(X\) 是列滿秩的,即要求矩陣 \(X\) 的列向量之間是線性無關的。然而,實際問題中的自變數之間往往不是孤立的,而是相互聯絡的,這就會導致設計矩陣 \(X\) 的列向量不可能完全線性無關。這就是多重共線性問題。

  • 完全共線性:若存在不全為 \(0\)\(p+1\) 的常數 \(c_0,c_1,\cdots,c_p\) 使得

    \[c_0+c_1x_{i1}+\cdots+c_px_{ip}=0 \ , \quad i=1,2,\cdots,n \ , \]

    則稱自變數 \(x_1,x_2,\cdots,x_p\) 之間存在著完全共線性關係。

  • 多重共線性:若存在不全為 \(0\)\(p+1\) 的常數 \(c_0,c_1,\cdots,c_p\) 使得

    \[c_0+c_1x_{i1}+\cdots+c_px_{ip}\approx0 \ , \quad i=1,2,\cdots,n \ , \]

    則稱自變數 \(x_1,x_2,\cdots,x_p\) 之間存在著多重共線性關係。

對經濟資料建模時,完全共線性關係並不多見,但多重共線性關係的情形則很常見。由於多重共線性會造成估計量方差的估計不準確,所以我們需要引入另一個評價估計量優劣的標準——均方誤差。

\(\theta\) 為一個列向量,\(\hat\theta\)\(\theta\) 的一個估計,定義 \(\hat\theta\) 的均方誤差為

\[{\rm MSE}(\hat\theta)={\rm E}\left\|\hat\theta-\theta\right\|^2={\rm E}\left[(\hat\theta-\theta)'(\hat\theta-\theta)\right] \ . \]

定理 3.7.1:均方誤差滿足如下公式:

\[{\rm MSE}(\hat\theta)={\rm tr}\left[{\rm Cov}(\hat\theta)\right]+\left\|{\rm E}(\hat\theta)-\theta\right\|^2 \ . \]

不難看出

\[\begin{aligned} {\rm MSE}(\hat\theta)&={\rm E}\left[(\hat\theta-\theta)'(\hat\theta-\theta)\right] \\ \\ &={\rm E}\left[\hat\theta-{\rm E}(\hat\theta)+{\rm E}(\hat\theta)-\theta\right]'\left[\hat\theta-{\rm E}(\hat\theta)+{\rm E}(\hat\theta)-\theta\right] \\ \\ &={\rm E}\left[\left(\hat\theta-{\rm E}(\hat\theta)\right)'\left(\hat\theta-{\rm E}(\hat\theta)\right)\right]+{\rm E}\left[\left({\rm E}(\hat\theta)-\theta\right)'\left({\rm E}(\hat\theta)-\theta\right)\right] \\ \\ &\xlongequal{def}\Delta_1+\Delta_2 \ . \end{aligned} \]

利用矩陣的跡的性質,

\[\begin{aligned} \Delta_1&={\rm E}\left\{{\rm tr}\left[\left(\hat\theta-{\rm E}(\hat\theta)\right)'\left(\hat\theta-{\rm E}(\hat\theta)\right)\right]\right\} \\ \\ &={\rm E}\left\{{\rm tr}\left[\left(\hat\theta-{\rm E}(\hat\theta)\right)\left(\hat\theta-{\rm E}(\hat\theta)\right)'\right]\right\} \\ \\ &={\rm tr}\left[{\rm E}\left(\hat\theta-{\rm E}(\hat\theta)\right)\left(\hat\theta-{\rm E}(\hat\theta)\right)'\right]={\rm tr}\left[{\rm Cov}(\hat\theta)\right] \ . \\ \\ \Delta_2&={\rm E}\left[\left({\rm E}(\hat\theta)-\theta\right)'\left({\rm E}(\hat\theta)-\theta\right)\right]=\left\|{\rm E}(\hat\theta)-\theta\right\|^2 \ . \end{aligned} \]

後者是顯然的,定理證畢。

若記 \(\hat\theta=(\hat\theta_1,\hat\theta_2,\cdots,\hat\theta_{p})'\) ,則有

\[\Delta_1=\sum_{i=1}^p{\rm Var}(\hat\theta_i) \ , \quad \Delta_2=\sum_{i=1}^p\left({\rm E}(\hat\theta_i)-\theta_i\right)^2 \ , \]

\(\Delta_1\)\(\hat\theta\) 的各個分量的方差之和,而 \(\Delta_2\)\(\hat\theta\) 的各個分量的偏差平方和。所以,一個估計的均方誤差由它的方差和偏差平方所決定。一個好的估計應該有較小的方差和偏差平方。

定理3.7.2:線上性迴歸模型中,對 \(\beta\) 的最小二乘估計 \(\hat\beta\)

\[\begin{align} &{\rm MSE}(\hat\beta)=\sigma^2\sum_{i=1}^{p+1}\frac1{\lambda_i} \ , \tag{1} \\ \\ &{\rm E}\left\|\hat\beta\right\|^2=\left\|\beta\right\|^2+\sigma^2\sum_{i=1}^{p+1}\frac1{\lambda_i} \ , \tag{2} \end{align} \]

其中 \(\lambda_1,\lambda_2,\cdots,\lambda_{p+1}>0\) 為對稱正定矩陣 \(X'X\) 的特徵根。

(1) 因為 \(\hat\beta\) 是無偏估計,所以 \(\Delta_2=0\) ,於是

\[{\rm MSE}(\hat\beta)=\Delta_1={\rm tr}\left[{\rm Cov}(\hat\beta)\right]=\sigma^2{\rm tr}\left[\left(X'X\right)^{-1}\right] \ . \]

因為 \(X'X\) 是對稱正定矩陣,所以存在正交陣 \(P\) 使得

\[X'X=P{\rm diag}\left(\lambda_1,\lambda_2,\cdots,\lambda_{p+1}\right)P' \ , \]

其中 \(\lambda_1,\lambda_2,\cdots,\lambda_{p+1}>0\)\(X'X\) 的特徵根,所以有

\[\left(X'X\right)^{-1}=P{\rm diag}\left(\frac1{\lambda_1},\frac1{\lambda_2},\cdots,\frac1{\lambda_{p+1}}\right)P' \ . \]

利用矩陣的跡的性質可得

\[{\rm tr}\left[\left(X'X\right)^{-1}\right]={\rm tr}\left[{\rm diag}\left(\frac1{\lambda_1},\frac1{\lambda_2},\cdots,\frac1{\lambda_{p+1}}\right)\right]=\sum_{i=1}^{p+1}\frac{1}{\lambda_i} \ . \]

所以證得

\[{\rm MSE}(\hat\beta)=\sigma^2\sum_{i=1}^{p+1}\frac1{\lambda_i} \ . \]

(2) 根據均方誤差的定義可得

\[\begin{aligned} {\rm MSE}(\hat\beta)&={\rm E}\left[(\hat\beta-\beta)'(\hat\beta-\beta)\right] \\ \\ &={\rm E}\left[\hat\beta'\hat\beta-2\beta'\hat\beta+\beta'\beta\right] \\ \\ &={\rm E}\left\|\hat\beta\right\|^2-\|\beta\|^2 \ , \end{aligned} \]

於是有

\[{\rm E}\left\|\hat\beta\right\|^2=\|\beta\|^2 +{\rm MSE}(\hat\beta)=\|\beta\|^2 +\sigma^2\sum_{i=1}^{p+1}\frac1{\lambda_i} \ . \]

結論 (1) 說明,如果 \(X'X\) 至少有一個非常小的特徵根,即非常接近於 \(0\) ,則 \({\rm MSE}(\hat\beta)\) 就會很大,此時最小二乘估計 \(\hat\beta\) 就不是一個很好的估計。這和 Gauss-Markov 定理並不矛盾,因為 Gauss-Markov 定理中的最小方差性仍然成立,只不過此時這個最小的方差本身就很大,因而導致了很大的均方誤差。

結論 (2) 說明,如果 \(X'X\) 至少有一個非常小的特徵根,則最小二乘估計 \(\hat\beta\) 的長度的平均值就要比真正的 \(\beta\) 的長度長很多,這就導致了 \(\hat\beta\) 的某些分量的絕對值被過度高估。

那麼問題來了,如果 \(X'X\) 至少有一個非常小的特徵根,這和多重共線性有什麼關係呢?

\(X=\left(\boldsymbol 1_n,x_1,x_2,\cdots,x_p\right)\) ,即 \(x_i\) 表示 \(X\) 的第 \(i+1\) 列。設 \(\lambda\)\(X'X\) 的一個特徵根,\(\phi\) 為其對應的特徵向量,不妨設其長度為 \(1\) ,即 \(\phi'\phi=1\) 。且根據特徵根的性質有 \(X'X\phi=\lambda\phi\)

\(\lambda\approx0\) ,則有

\[\|X\phi\|^2=\phi'X'X\phi=\lambda\phi'\phi=\lambda\approx0 \ . \]

於是 \(X\phi\approx0\) 。記 \(\phi=\left(c_0,c_1,\cdots,c_p\right)'\) ,則有

\[c_0\boldsymbol 1_n+c_1x_1+c_2x_2+\cdots+c_px_p\approx0 \ . \]

即設計矩陣 \(X\) 的列向量之間具有多重共線性。

反之,若設計矩陣 \(X\) 的列向量之間具有多重共線性,此時 \(X'X\) 仍是正定矩陣,但 \(\left|X'X\right|\approx0\) ,由此可知

\[\prod_{i=1}^{p+1}\lambda_i=\left|X'X\right|\approx0 \ , \]

所以 \(X'X\) 至少有一個非常小的特徵根,接近於 \(0\)

綜上所述,\(X'X\) 至少有一個非常小的特徵根與 \(X\) 的列向量之間具有多重共線性是等價的,這時稱設計矩陣 \(X\) 為病態矩陣。

3.7.2 多重共線性的診斷

以上我們介紹了多重共線性的定義,以及多重共線性下設計矩陣 \(X\) 的特徵。注意到,一個迴歸模型是否具有多重共線性與被解釋變數 \(Y\) 是無關的,因此我們可以通過設計矩陣 \(X\) 的某些特徵對多重共線性進行診斷。

(1) 方差膨脹因子診斷法

這種方法從多重共線性的自變數之間具有線性相關性的角度出發,記 \(R_j^2\) 為自變數 \(x_j\) 對其餘 \(p-1\) 個自變數的判定係數,定義方差膨脹因子為

\[{\rm VIF}_j=\frac{1}{1-R_j^2} \ , \quad j=1,2,\cdots,p \ . \]

由於 \(R_j^2\) 度量了自變數 \(x_j\) 對其餘 \(p-1\) 個自變數之間的線性相關程度,若 \(x_1,x_2,\cdots,x_p\) 之間的多重共線性越嚴重,\(R_j^2\) 就越接近於 \(1\) ,此時 \({\rm VIF}_j\) 也就越大。因此,用 \({\rm VIF}\) 來度量多重共線性是合理的。

度量的準則:當有某個 \({\rm VIF}_j\geq10\) 或者當

\[\overline{\rm VIF}=\frac1p\sum_{j=1}^p{\rm VIF}_j\gg 1 \ , \]

我們認為自變數之間存在嚴重的多重共線性。

(2) 特徵根與條件數診斷法

這種方法從多重共線性等價於 \(X'X\) 至少有一個非常小的特徵根的角度出發。為消除量綱的影響,我們假設自變數與因變數的觀測值均已標準化。此時可以認為線性迴歸模型沒有截距項,且設計矩陣 \(X\)\(n\times p\) 的矩陣,\(X'X\)\(p\) 個自變數的樣本相關係數矩陣。

特徵根診斷法:如果 \(X'X\)\(m\) 個特徵根近似為 \(0\) ,那麼 \(X\) 就有 \(m\) 個多重共線性關係,並且這 \(m\) 個多重共線性關係的係數向量就是這 \(m\) 個接近於 \(0\) 的特徵根所對應的標準正交化特徵向量。

條件數診斷法:假設 \(X'X\)\(p\) 個特徵根分別為 \(\lambda_1,\lambda_2,\cdots,\lambda_p\) ,其中最大特徵根為 \(\lambda_{\max}\) ,最小特徵根為 \(\lambda_{\min}\) ,定義特徵根 \(\lambda_j\) 的條件數為

\[\kappa_j=\frac{\lambda_{\max}}{\lambda_j} \ , \quad j=1,2,\cdots,p \ . \]

我們可以用最大條件數來度量矩陣 \(X'X\) 的特徵根的散佈程度,即定義

\[\kappa=\max_j\kappa_j=\frac{\lambda_\max}{\lambda_\min} \ , \]

它可以用來近似衡量最小特徵根接近 \(0\) 的程度,因此可以用來判斷是否具有多重共線性,以及度量多重共線性的嚴重程度。條件數判斷準則為

  • \(0<\kappa<100\) ,則認為不存在多重共線性;
  • \(100<\kappa<1000\) ,則認為存在較強的多重共線性;
  • \(\kappa>1000\) ,則認為存在嚴重的多重共線性。

消除多重共線性的方法主要包括兩個,一是通過增加樣本容量,以消除或緩解自變數之間的線性相關性;二是犧牲最小二乘估計的無偏性,尋找能夠有效降低均方誤差的有偏估計。