ML筆記 - 迴歸模型診斷之違背基本假設

阿新 • • 發佈：2018-11-14

在迴歸模型中，常見違背基本假設的情況有異方差、自相關和異常值。

異方差

迴歸模型中的異方差是指隨機誤差項的方差不是一個常數，而是隨著自變數的取值變化而變化。

由於不滿足迴歸分析中的同方差的前提假設，異方差將可能帶來以下問題：

對使用最小二乘法求解引數時，引數估計值雖然無偏，但是不是最小方差線性無偏估計。
引數的顯著性檢驗失效。
迴歸方程的應用效果不理想。

造成異方差的常見原因：

模型缺少了某些解釋變數，預設變數本身的方差被包含在了隨機誤差的方差中。
模型本身選取有誤，比如原本是非線性的，結果使用了線性模型。
其他原因，包括但不限於：
- 樣本量過少
- 測量誤差
- 異常資料
- 時序分析或使用面板資料等

異方差的檢驗：

殘差圖分析
等級相關係數法，又稱斯皮爾曼檢驗
相關圖分析
Park檢驗與Gleiser檢驗
Goldfeld-Quandt檢驗
Breusch-Pagan檢驗
White檢驗
…

消除異方差的方法：

加權最小二乘法
BOX-COX變換法
方差穩定性變換法等

自相關

迴歸模型中的自相關是指隨機誤差項的協方差，即變數前後數值之間存在相關關係。

由於不滿足迴歸分析中的不相關的前提假設，自相關將可能帶來以下問題：

對使用最小二乘法求解引數時，引數估計值雖然無偏，但是OLS估計量的方差不是最小的，估計量不是最優線性無偏估計量。
OLS估計量的方差是有偏的。
顯著性檢驗失敗，包括t檢驗和F檢驗。
存在序列相關時，最小二乘估計量對抽樣波動非常敏感。
迴歸方程的應用效果不理想，會帶來較大的方差甚至錯誤。

造成自相關的常見原因：

模型遺漏關鍵變數，被遺漏變數在時間順序上存在相關性。
錯誤的迴歸函式形式。
蛛網現象。
對資料加工整理而導致誤差項之間出現自相關，比如處理序列資料時採用了不恰當的差分變換。

自相關的檢驗：

圖示分析法

自相關係數法
DW(Durbin-Watson)檢驗法等

消除自相關：

迭代法
差分法
BOX-COX變換法

異常值

迴歸分析中，一些異常或者極端的觀測值可能會引起較大的殘差，進而影響迴歸擬合的效果。

異常值成因：

資料錄入錯誤
資料測量錯誤
資料隨機誤差
缺少重要自變數
缺少觀測資料
存在異方差
模型選擇錯誤

消除方法：

重新核實資料
重新測量資料
刪除或者重新觀測資料
增加相應自變數
增加觀測資料
消除異方差，如加權迴歸等
更改模型，如改成非線性迴歸

ML筆記 - 迴歸模型診斷之違背基本假設

在迴歸模型中，常見違背基本假設的情況有異方差、自相關和異常值。異方差迴歸模型中的異方差是指隨機誤差項的方差不是一個常數，而是隨著自變數的取值變化而變化。由於不滿足迴歸分析中的同方差的前提假設，異方差將可能帶來以下問題：對使用最小二乘法求解引數時，引數估計值

ML筆記 - 迴歸分析概述

基本概念變數之間的非嚴格函式關係：變數x、y之間存在某種密切的聯絡，但並非嚴格的函式關係（非確定性關係）。迴歸：迴歸是處理兩個或兩個以上變數之間互相依賴的定量關係的一種統計方法和技術，變數之間的關係並非確定的函式關係，通過一定的概率分佈來描述。線性和非線性：線性（Line

logistic 迴歸模型診斷

p 值 P 值是一個概率，用來度量否定原假設的證據。概率越低，否定原假設的證據越充分。（原假設 H0: 該自變數項與因變數之間的關聯在統計意義上不顯著）解釋將該特徵（因變數）項的 P 值與顯著性水平進行比較，可以評估原假設，確定因變數與模型中每個自變

OpenCV學習筆記（一）之常用基本資料型別

引言就像C、C++等語言一樣，OpenCV作為一個開源庫，為了便捷及良好的封裝性，它也有很多自己定義的資料型別，這些型別在很多地方都有用到。學習OpenCV首先就需要對它的基本資料型別有個大概的瞭解，這樣在之後開始正式專案時就算遇到各種各樣複雜的資料型別也好回頭再來查詢。 CvPo

機器學習---最小二乘線性回歸模型的5個基本假設（Machine Learning Least Squares Linear Regression Assumptions）

成員 toc 我們假設 depend element 產生 log bsp 在之前的文章《機器學習---線性回歸（Machine Learning Linear Regression）》中說到，使用最小二乘回歸模型需要滿足一些假設條件。但是這些假設條件卻往往是人們容易忽略

初學ML筆記N0.1——線性迴歸，分類與邏輯斯蒂迴歸，通用線性模型

1.線性迴歸線性迴歸，即假設使用一個線性的模型方程，來擬合特徵與結果，如下向量形式： x1，x2為輸入特徵。在上式中，theta則為每個特徵所對應的權重值，上式隱含了一個條件，即我們假設還有x0這個特徵，其值全部為1。定義cost

ELK 學習筆記之 Logstash基本語法

技術 logs erl 定義 -s images cnblogs img ron Logstash基本語法：處理輸入的input 處理過濾的filter 處理輸出的output 區域數據類型條件判斷字段引用區域： Logstash中，是用{}

（1）學習筆記之mysql基本操作（）

info 文件 star 操作圖片 muti mysq 推薦 com 本系列學習筆記主要講如下幾個方面； 1.mysql啟動　　　　如圖，有多重啟動方式　　（1.1）mysql.server start　　（1.2）/etc/init.d/mysqld sta

TensorFlow學習筆記（一）-- Softmax迴歸模型識別MNIST

最近學習Tensorflow，特此筆記，學習資料為21個專案玩轉深度學習基於TensorFlow的實踐詳解 Softmax迴歸是一個線性的多分類模型，它是從Logistic迴歸模型轉化而來的，不同的是Logistic迴歸模型是一個二分類模型，而Softmax迴歸模型是一個多分類模型

【論文閱讀筆記3】序列模型入門之LSTM和GRU

本文只是吳恩達視訊課程關於序列模型一節的筆記。參考資料：吳恩達深度學習工程師微專業之序列模型博文——理解LSTM 吳恩達本來就是根據這篇博文的內容來講的，所以個人認為認真學習過吳恩達講的那個課程後可以不用再看那篇博文了，能獲得的新的知識不多，另外網上的博文基本也都是根據那篇

機器學習筆記（一）線性迴歸模型

一、線性迴歸模型（一）引入—梯度下降演算法 1. 線性假設： 2. 方差代價函式： 3. 梯度下降： 4. : learning rate （用來控制我們在梯度下降時邁出多大的步子，值較大，梯度下降就很迅速）值過大易造成無法收斂到minimum（每一步邁更大）

ML筆記 - 模型的效能度量

效能度量（Performance Measure）評價模型泛化能力的標準。對於不同的模型，有不同的評價標準，不同的評價標準將導致不同的評價結果。模型的好壞是相對的，取決於對於當前任務需求的完成情況。比如對迴歸模型的效能度量通常選用均方誤差（Mean Squared Error

ML筆記 - 模型的選擇及評估

基本概念誤差（Error）：是模型的預測輸出值與其真實值之間的差異。訓練（Training）：通過已知的樣本資料進行學習，從而得到模型的過程。訓練誤差（Training Error）：模型作用於訓練集時的誤差。泛化（Generalize）：由具體的、個別的擴大到一般的，即從特

ML筆記 - 機器學習基本概念

監督學習以已知結果的資料集作為訓練樣本。基本流程：輸入資料 -> 特徵工程 -> 模型訓練 -> 模型部署 -> 模型應用。監督學習的目的在於學習一個由輸入到輸出的對映，這一對映由模型來表示，也就是說學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到

莫煩python教程學習筆記——線性迴歸模型的屬性

# View more python learning tutorial on my Youtube and Youku channel!!! # Youtube video tutorial: https://www.youtube.com/channel/UCdyjiB5H8Pu7aDTNVXTT

Tensorflow學習筆記二--線性迴歸模型

學習完基本操作後，今天來學習一下如何用tensorflow建立線性迴歸模型。一、首先建立一些資料 import numpy as np import tensorflow as tf import matplotlib.pyplot as plt # 隨機生成1000個點，圍繞在y=0.

機器學習筆記（三）Logistic迴歸模型

Logistic迴歸模型 1. 模型簡介：線性迴歸往往並不能很好地解決分類問題，所以我們引出Logistic迴歸演算法，演算法的輸出值或者說預測值一直介於0和1，雖然演算法的名字有“迴歸”二字，但實際上Logistic迴歸是一種分類演算法（classification y = 0 or 1）。 Log

ML - 貸款使用者逾期情況分析4 - 模型融合之Stacking

文章目錄模型融合之Stacking (判定貸款使用者是否逾期) 1. 理論介紹 1.1 系統解釋 1.2 詳細解釋 2. 程式碼 2.1 調包實現 2.2 自己實現

sklearn實踐之——計算迴歸模型的四大評價指標（explained_variance_score、mean_absolute_error、mean_squared_error、r2_score）

迴歸模型是機器學習中很重要的一類模型，不同於常見的分類模型，迴歸模型的效能評價指標跟分類模型也相差很大，這裡簡單基於工作中的一點實踐來記錄一下基於sklearn庫計算迴歸模型中常用的四大評價指標主要包括：explained_variance_score、mean_abso

sklearn 學習實踐之——基於自帶資料集（波士頓房價、鳶尾花、糖尿病等）構建分類、迴歸模型

只要是接觸機器學習的，很少有沒聽過sklearn的，這個真的可以稱得上是機器學習快速進行的神器了，在研究生的時候搭建常用的機器學習模型用的就是sklearn，今天應部門的一些需求，簡單的總結了一點使用方法，後面還會繼續更新，今天僅使用sklearn自帶的資料

ML筆記 - 迴歸模型診斷之違背基本假設

異方差

自相關

異常值

相關推薦