1. 程式人生 > 其它 >R語言缺失資料變數選擇LASSO迴歸:Bootstrap重(再)抽樣插補和推算

R語言缺失資料變數選擇LASSO迴歸:Bootstrap重(再)抽樣插補和推算

全文連結:http://tecdat.cn/?p=30726

原文出處:拓端資料部落公眾號

在存在缺失資料的情況下,需要根據缺失資料的機制和用於處理缺失資料的統計方法定製變數選擇方法。我們專注於可以與插補相結合的隨機和變數選擇方法的缺失方法。

我們圍繞自舉Bootstrap插補和穩定性選擇技術進行一些諮詢,幫助客戶解決獨特的業務問題,後者是為完全觀察的資料而開發的。所提出的方法是通用的,可以應用於廣泛的設定。模擬研究表明,與幾種針對低維和高維問題的現有方法相比,BI-SS的效能是最好的或接近最好的,並且對變數選擇方面的引數值調整相對不敏感。

引言

變數選擇已經廣泛研究了完全觀察到的資料,現有方法包括基於AIC的經典方法(Akaike,1974)和現代正則化方法,如套索(Tibshirani,1996)。與完全觀測的資料相比,在存在缺失資料的情況下,變數選擇出現了新的挑戰。特別是,存在不同的缺失資料機制,對於每種機制,都有不同的統計方法來處理缺失資料。因此,變數選擇方法需要根據缺失的資料機制和所使用的統計方法進行調整。Little和Rubin(2002)和Tsiatis(2006)一起對處理缺失資料的現有統計方法進行了全面回顧。

本文重點研究了隨機缺失(MAR)的機制。根據MAR研究了變數選擇,並對用於處理缺失資料的統計方法進行了研究。


### 具有非正態變數的示例資料集
set.seed(1000)
n <- 50
x1 <- round(runif(n,0.5,3.5))
x2 <- as.factor(c(rep(1,10),rep(2,25),rep(3,15)))

Bootstrap插補

隨機建立缺失值

dat <- mice(data1)
complete(dat)

穩定性選擇與自舉插補相結合

train <- data[trainindex,1:6]
calibrate <- data[-trainindex,1:6]
plot(train)

Bootstrap插補

套索LASSO迴歸

lambda的最優值是通過交叉驗證選擇的。

Bolasso與自舉插補相結合

beta.rescaled <- beta
for(j in 1:nrow(beta.rescaled)){
  beta.rescaled[j,] <- beta.rescaled[j,]*beta.scale

計算RSS

討論

本文研究了一種在缺少資料的情況下進行變數選擇的通用重取樣方法,數值結果表明,對低維和高維問題都具有較好的效能。當專注於迴歸分析時,所提出的方法可以解讀為適用於其他型別的分析。在我們感興趣的背景下,將標準誤差處理為引數估計是一項具有挑戰性的任務。一種方法是將現有的獲取標準誤差的方法應用於僅限於變數選擇過程選擇的預測器的原始資料。


最受歡迎的見解

1.matlab偏最小二乘迴歸(PLSR)和主成分迴歸(PCR)

2.R語言高維資料的主成分pca、 t-SNE演算法降維與視覺化分析

3.主成分分析(PCA)基本原理及分析例項

4.R語言實現貝葉斯分位數迴歸、lasso和自適應lasso貝葉斯分位數迴歸

5.使用LASSO迴歸預測股票收益資料分析

6.r語言中對lasso迴歸,ridge嶺迴歸和elastic-net模型

7.r語言中的偏最小二乘迴歸pls-da資料分析

8.R語言用主成分PCA、 邏輯迴歸、決策樹、隨機森林分析心臟病資料並高維視覺化

9.R語言主成分分析(PCA)葡萄酒視覺化:主成分得分散點圖和載荷圖