R語言缺失資料變數選擇LASSO迴歸：Bootstrap重（再）抽樣插補和推算

阿新 • • 發佈：2022-12-06

全文連結：http://tecdat.cn/?p=30726

原文出處：拓端資料部落公眾號

在存在缺失資料的情況下，需要根據缺失資料的機制和用於處理缺失資料的統計方法定製變數選擇方法。我們專注於可以與插補相結合的隨機和變數選擇方法的缺失方法。

我們圍繞自舉Bootstrap插補和穩定性選擇技術進行一些諮詢，幫助客戶解決獨特的業務問題，後者是為完全觀察的資料而開發的。所提出的方法是通用的，可以應用於廣泛的設定。模擬研究表明，與幾種針對低維和高維問題的現有方法相比，BI-SS的效能是最好的或接近最好的，並且對變數選擇方面的引數值調整相對不敏感。

引言

變數選擇已經廣泛研究了完全觀察到的資料，現有方法包括基於AIC的經典方法（Akaike，1974）和現代正則化方法，如套索（Tibshirani，1996）。與完全觀測的資料相比，在存在缺失資料的情況下，變數選擇出現了新的挑戰。特別是，存在不同的缺失資料機制，對於每種機制，都有不同的統計方法來處理缺失資料。因此，變數選擇方法需要根據缺失的資料機制和所使用的統計方法進行調整。Little和Rubin（2002）和Tsiatis（2006）一起對處理缺失資料的現有統計方法進行了全面回顧。

本文重點研究了隨機缺失（MAR）的機制。根據MAR研究了變數選擇，並對用於處理缺失資料的統計方法進行了研究。


### 具有非正態變數的示例資料集
set.seed(1000)
n <- 50
x1 <- round(runif(n,0.5,3.5))
x2 <- as.factor(c(rep(1,10),rep(2,25),rep(3,15)))

Bootstrap插補

隨機建立缺失值

dat <- mice(data1)
complete(dat)

穩定性選擇與自舉插補相結合

train <- data[trainindex,1:6]
calibrate <- data[-trainindex,1:6]
plot(train)

Bootstrap插補

套索LASSO迴歸

lambda的最優值是通過交叉驗證選擇的。

Bolasso與自舉插補相結合

beta.rescaled <- beta
for(j in 1:nrow(beta.rescaled)){
  beta.rescaled[j,] <- beta.rescaled[j,]*beta.scale

計算RSS

討論

本文研究了一種在缺少資料的情況下進行變數選擇的通用重取樣方法，數值結果表明，對低維和高維問題都具有較好的效能。當專注於迴歸分析時，所提出的方法可以解讀為適用於其他型別的分析。在我們感興趣的背景下，將標準誤差處理為引數估計是一項具有挑戰性的任務。一種方法是將現有的獲取標準誤差的方法應用於僅限於變數選擇過程選擇的預測器的原始資料。

最受歡迎的見解

1.matlab偏最小二乘迴歸(PLSR)和主成分迴歸(PCR)

2.R語言高維資料的主成分pca、 t-SNE演算法降維與視覺化分析

3.主成分分析(PCA)基本原理及分析例項

4.R語言實現貝葉斯分位數迴歸、lasso和自適應lasso貝葉斯分位數迴歸

5.使用LASSO迴歸預測股票收益資料分析

6.r語言中對lasso迴歸，ridge嶺迴歸和elastic-net模型

7.r語言中的偏最小二乘迴歸pls-da資料分析

8.R語言用主成分PCA、邏輯迴歸、決策樹、隨機森林分析心臟病資料並高維視覺化

9.R語言主成分分析（PCA）葡萄酒視覺化：主成分得分散點圖和載荷圖

R語言缺失資料變數選擇LASSO迴歸：Bootstrap重（再）抽樣插補和推算

全文連結：http://tecdat.cn/?p=30726

原文出處：拓端資料部落公眾號

引言

Bootstrap插補

隨機建立缺失值

穩定性選擇與自舉插補相結合

Bootstrap插補

套索LASSO迴歸

Bolasso與自舉插補相結合

計算RSS

討論

R語言缺失資料變數選擇LASSO迴歸：Bootstrap重（再）抽樣插補和推算

拓端tecdat|R語言群組變數選擇、組懲罰group lasso套索模型預測分析新生兒出生體重風險因素資料和交叉驗證、視覺化

資料科學【七】：聚類（三）

R 語言缺失值處理並使用SMOTE處理不平衡資料集

R語言用貝葉斯線性迴歸、貝葉斯模型平均 (BMA)來預測工人工資|附程式碼資料

R語言——多元資料直觀表示

大資料分析R語言tidyverse資料清洗工具教程

用Python來仿製一張R語言的資料視覺化圖

R語言面板資料分析 plm包實現（固定效應模型和組內模型）

R語言2資料結構

R語言金融資料分析之quantmod （3）

拓端tecdat|R語言貝葉斯非引數模型：密度估計、非引數化隨機效應meta分析心肌梗死資料

拓端tecdat|R語言平滑演算法LOESS區域性加權迴歸、三次樣條、變化點檢測擬合電視節目《白宮風雲》線上收視率

拓端tecdat：R語言用貝葉斯線性迴歸、貝葉斯模型平均 (BMA)來預測工人工資

拓端tecdat：R語言STAN貝葉斯線性迴歸模型分析氣候變化影響北半球海冰範圍和視覺化檢查模型收斂性

R語言的資料匯入與匯出(write.table,CAT)

R語言網路資料收集

C語言 -- 將列舉（enum）變數裡的值同時作為字串（string）和變數識別符號（identifier）

資料預處理--缺失值判斷和處理（刪除發、插補法（均值插補、熱平臺插補））

單變數線性迴歸：TensorFlow 實戰（理論篇）

R語言缺失資料變數選擇LASSO迴歸：Bootstrap重（再）抽樣插補和推算

全文連結：http://tecdat.cn/?p=30726

原文出處：拓端資料部落公眾號

引言

Bootstrap插補

隨機建立缺失值

穩定性選擇與自舉插補相結合

Bootstrap插補

套索LASSO迴歸

Bolasso與自舉插補相結合

計算RSS

討論

相關推薦