多益網路策劃分析師知識點
迴歸分析中的多重共線性問題
解釋變數理論上的高度相關與觀測值高度相關沒有必然關係,有可能兩個解釋變數理論上高度相關,但觀測值未必高度相關,反之亦然。所以多重共線性本質上是資料問題。
造成多重共線性的原因有一下幾種:
1、解釋變數都享有共同的時間趨勢;
2、一個解釋變數是另一個的滯後,二者往往遵循一個趨勢;
3、由於資料收集的基礎不夠寬,某些解釋變數可能會一起變動;
4、某些解釋變數間存在某種近似的線性關係;
判別:
1、發現係數估計值的符號不對;
2、某些重要的解釋變數t值低,而R方不低
3、當一不太重要的解釋變數被刪除後,迴歸結果顯著變化;
檢驗;
1、相關性分析,相關係數高於0.8,表明存在多重共線性;但相關係數低,並不能表示不存在多重共線性;
2、vif檢驗;
3、條件係數檢驗;
解決方法:
1、增加資料;
2、對模型施加某些約束條件;
3、刪除一個或幾個共線變數;
4、將模型適當變形;
5、主成分迴歸
處理多重共線性的原則:
1、 多重共線性是普遍存在的,輕微的多重共線性問題可不採取措施;
2、 嚴重的多重共線性問題,一般可根據經驗或通過分析迴歸結果發現。如影響係數符號,重要的解釋變數t值很低。要根據不同情況採取必要措施。
3、 如果模型僅用於預測,則只要擬合程度好,可不處理多重共線性問題,存在多重共線性的模型用於預測時,往往不影響預測結果;
KMO(Kaiser-Meyer-Olkin)檢驗統計量是用於比較變數間簡單相關係數和偏相關係數的指標。主要應用於多元統計的因子分析。KMO統計量是取值在0和1之間。
當所有變數間的簡單相關係數平方和遠遠大於偏相關係數平方和時,KMO值接近1.KMO值越接近於1,意味著變數間的相關性越強,原有變數越適合作因子分析;當所有變數間的簡單相關係數平方和接近0時,KMO值接近0.KMO值越接近於0,意味著變數間的相關性越弱,原有變數越不適合作因子分析
衡量資料離散程度的指標有:1.異眾比率,用於測度分類資料的離散程度,衡量眾數對一組資料的代表程度;2.四分位差,用於測量順序資料的離散程度,衡量中位數對一組資料的代表程度;3.方差和標準差,用於測度資料離散程度的最常用測度值,衡量均值對一組資料的代表程度.
Pearson相關係數 (Pearson CorrelationCoefficient)是用來衡量兩個資料集合是否在一條線上面,它用來衡量定距變數間的線性關係。
相關係數的絕對值越大,相關性越強:相關係數越接近於1或-1,相關度越強,相關係數越接近於0,相關度越弱。
資料分析方法主要包括對比分析法,分組分析,交叉分析,平均分析法等