拓端tecdat|R語言群組變數選擇、組懲罰group lasso套索模型預測分析新生兒出生體重風險因素資料和交叉驗證、視覺化

阿新 • • 發佈：2022-02-04

原文連結：http://tecdat.cn/?p=25158

原文出處：拓端資料部落公眾號

本文擬合具有分組懲罰的線性迴歸、GLM和Cox迴歸模型的正則化路徑。這包括組選擇方法，如組lasso套索、組MCP和組SCAD，以及雙級選擇方法，如組指數lasso、組MCP。還提供了進行交叉驗證以及擬合後視覺化、總結和預測的實用程式。

本文提供了一些資料集的例子；涉及識別與低出生體重有關的風險因素。結果是連續測量（bwt，以公斤為單位的出生體重），也可以是二分法（低），即新生兒出生體重低（低於2.5公斤）。

head(X)

原始設計矩陣由 8 個變數組成，此處已將其擴充套件為 16 個特徵。例如，有多個種族指標函式（“其他”是參考組），並且已經使用多項式對比擴充套件了幾個連續因素（例如年齡）（樣條曲線會給出類似的結構）。因此，設計矩陣的列被分組

；這就是組的設計目的。分組資訊編碼如下：

group

在這裡，組是作為一個因子給出的；唯一的整數程式碼（本質上是無標籤的因子）和字元向量也是允許的（然而，字元向量確實有一些限制，因為組的順序沒有被指定）。要對這個資料擬合一個組套索lasso模型。

gLas(X, y，grup）

然後我們可以用以下方法繪製係數路徑

plot

請注意，當一個組進入模型時（例如，綠色組），它的所有係數都變成非零；這就是組套索模型的情況。要想知道這些係數是什麼，我們可以使用coef。

請注意，在λ=0.05時，醫生的就診次數不包括在模型中。

為了推斷模型在各種 λ值下的預測準確性，進行交叉驗證。

cv(X, y, grp)

可以通過coef以下方式獲得與最小化交叉驗證誤差的 λ值對應的係數：

coef(cvfit)

預測值可以通過獲得predict，它有許多選項：

predict # 對新觀察結果的預測

predicttype="ngroups" # 非零組的數量

 # 非零組的身份

nvars # 非零係數的數量

predict(fit # 非零係數的身份

原始擬合（對完整資料集）返回為fit; 其他幾種懲罰是可用的，邏輯迴歸和 Cox 比例風險迴歸的方法也是如此。

最受歡迎的見解

1.R語言多元Logistic邏輯迴歸應用案例

2.面板平滑轉移回歸(PSTR)分析案例實現

3.matlab中的偏最小二乘迴歸（PLSR）和主成分迴歸（PCR）

4.R語言泊松Poisson迴歸模型分析案例

5.R語言迴歸中的Hosmer-Lemeshow擬合優度檢驗

6.r語言中對LASSO迴歸，Ridge嶺迴歸和Elastic Net模型實現

7.在R語言中實現Logistic邏輯迴歸

8.python用線性迴歸預測股票價格

9.R語言如何在生存分析與Cox迴歸中計算IDI，NRI指標

▍關注我們【大資料部落】第三方資料服務提供商,提供全面的統計分析與資料探勘諮詢服務,為客戶定製個性化的資料解決方案與行業報告等。 ▍諮詢連結：http://y0.cn/teradat ▍聯絡郵箱：[email protected]

拓端tecdat|R語言群組變數選擇、組懲罰group lasso套索模型預測分析新生兒出生體重風險因素資料和交叉驗證、視覺化

原文連結：http://tecdat.cn/?p=25158

原文出處：拓端資料部落公眾號

拓端tecdat|R語言群組變數選擇、組懲罰group lasso套索模型預測分析新生兒出生體重風險因素資料和交叉驗證、視覺化

拓端tecdat|R語言K-means和層次聚類分析癌細胞系微陣列資料和樹狀圖視覺化比較

拓端tecdat|Matlab廣義線性模型glm泊松迴歸的lasso、彈性網路正則化分類預測考試成績資料和交叉驗證視覺化

拓端tecdat|R語言計量經濟學：工具變數法(兩階段最小二乘法2SLS)線性模型分析人均食品消費時間序列資料和迴歸診斷

拓端tecdat|Stata廣義矩量法GMM面板向量自迴歸PVAR模型選擇、估計、Granger因果檢驗分析投資、收入和消費資料

拓端tecdat|R語言用有限混合模型(FMM,finite mixture model)建立衰退指標對股市SPY、ETF收益聚類和雙座標圖視覺化

拓端tecdat：PYTHON用LSTM長短期記憶神經網路的引數優化方法預測時間序列洗髮水銷售資料

拓端tecdat|Python多項式Logistic邏輯迴歸進行多類別分類和交叉驗證準確度箱

拓端tecdat|R語言估計獲勝概率：模擬分析學生多項選擇考試通過概率視覺化

拓端tecdat|R語言用igraph繪製網路圖視覺化

拓端tecdat|R語言DTW(Dynamic Time Warping) 動態時間規整演算法分析序列資料和視覺化

拓端tecdat|R語言分解商業週期時間序列資料：線性濾波器、HP濾波器、Baxter King濾波器、Beveridge Nelson分解等去趨勢方法

拓端tecdat|R語言貝葉斯Poisson泊松-正態分佈模型分析職業足球比賽進球數

拓端tecdat|R語言貝葉斯MCMC：GLM邏輯迴歸、Rstan線性迴歸、Metropolis Hastings與Gibbs取樣演算法例項

拓端tecdat|R語言譜聚類、K-means聚類分析非線性環狀資料比較

拓端tecdat|R語言進行支援向量機迴歸SVR和網格搜尋超引數優化

拓端tecdat|【視訊】R語言廣義相加模型（GAM）在電力負荷預測中的應用

拓端tecdat|在R語言中實現sem進行結構方程建模和路徑圖視覺化

拓端tecdat|R語言用線性混合效應（多水平/層次/巢狀）模型分析聲調高低與禮貌態度的關係

拓端tecdat|R語言JAGS貝葉斯迴歸模型分析博士生延期畢業完成論文時間

拓端tecdat|R語言群組變數選擇、組懲罰group lasso套索模型預測分析新生兒出生體重風險因素資料和交叉驗證、視覺化

原文連結：http://tecdat.cn/?p=25158

原文出處：拓端資料部落公眾號

相關推薦