拓端tecdat|R語言貝葉斯MCMC：GLM邏輯迴歸、Rstan線性迴歸、Metropolis Hastings與Gibbs取樣演算法例項

阿新 • • 發佈：2021-08-04

原文連結：http://tecdat.cn/?p=23236

原文出處：拓端資料部落公眾號

什麼是頻率學派？

在頻率學派中，觀察樣本是隨機的，而引數是固定的、未知的數量。

概率被解釋為一個隨機過程的許多觀測的預期頻率。

有一種想法是 "真實的"，例如，在預測魚的生活環境時，鹽度和溫度之間的相互作用有一個迴歸係數？

什麼是貝葉斯學派？

在貝葉斯方法中，概率被解釋為對信念的主觀衡量。

所有的變數--因變數、引數和假設都是隨機變數。我們用資料來確定一個估計的確定性（可信度）。

這種鹽度X溫度的相互作用反映的不是絕對的，而是我們對魚的生活環境所瞭解的東西（本質上是草率的）。

目標

頻率學派

保證正確的誤差概率，同時考慮到抽樣、樣本大小和模型。

缺點：需要對置信區間、第一類和第二類錯誤進行復雜的解釋。
優點：更具有內在的 "客觀性 "和邏輯上的一致性。

貝葉斯學派

分析更多的資訊能在多大程度上提高我們對一個系統的認識。

缺點：這都是關於信仰的問題! ...有重大影響。
優點: 更直觀的解釋和實施，例如，這是這個假設的概率，這是這個引數等於這個值的概率。可能更接近於人類自然地解釋世界的方式。

實際應用中：為什麼用貝葉斯

具有有限資料的複雜模型，例如層次模型，其中

實際的先驗知識非常少

貝葉斯法則：

一些典型的貝葉斯速記法。

注意:

貝葉斯的最大問題在於確定先驗分佈。先驗應該是什麼？它有什麼影響？

目標:

計算引數的後驗分佈：π（θ|X）。

點估計是後驗的平均值。

一個可信的區間是

你可以把它解釋為一個引數在這個區間內的概率。

計算

皮埃爾-西蒙-拉普拉斯（1749-1827）（見：Sharon Bertsch McGrayne: The Theory That Would Not Die)

有些問題是可分析的，例如二項式似然-貝塔先驗。
- 如果你有幾個引數，而且是奇數分佈，你可以用數值乘以/整合先驗和似然（又稱網格近似）。
  - 但如果你有很多引數，這是不可能完成的操作
儘管該理論可以追溯到1700年，甚至它對推理的解釋也可以追溯到19世紀初，但它一直難以更廣泛地實施，直到馬爾科夫鏈蒙特卡洛技術的發展。

MCMC

MCMC的思想是對引數值θi進行 "抽樣"。

回顧一下，馬爾科夫鏈是一個隨機過程，它只取決於它的前一個狀態，而且（如果是遍歷的），會生成一個平穩的分佈。

技巧 "是找到漸進地接近正確分佈的抽樣規則（MCMC演算法）。

有幾種這樣的（相關）演算法。

Metropolis-Hastings抽樣
Gibbs 抽樣
No U-Turn Sampling (NUTS)
Reversible Jump

一個不斷髮展的文獻和工作體系!

Metropolis-Hastings 演算法

開始:
跳到一個新的候選位置:
計算後驗:
如果
如果
轉到第2步

Metropolis-Hastings: 硬幣例子

你丟擲了5個正面。你對θ的最初 "猜測 "是

MCMC:

p.old <- prior *likelihood
while(length(thetas) <= n){
theta.new <- theta + rnorm(1,0,0.05)
p.new <- prior *likelihood
if(p.new > p.old | runif(1) < p.new/p.old){
theta <- theta.new
p.old <- p.new
}

畫圖:

hist(thetas[-(1:100)] )
curve(6*x^5 )

取樣鏈：調整、細化、多鏈

那個 "朝向 "平穩的初始過渡被稱為 "預燒期"，必須加以修整。
- 怎麼做？用眼睛看
取樣過程（顯然）是自相關的。
- 如何做？通常是用眼看，用acf()作為指導。
為了保證你收斂到正確的分佈，你通常會從不同的位置獲得多條鏈（例如4條）。
有效樣本量

MCMC 診斷法

R軟體包幫助分析MCMC鏈。一個例子是線性迴歸的貝葉斯擬合（α,β,σ

plot(line)

預燒部分:

plot(line[[1]], start=10)

MCMC診斷法

檢視後驗分佈（同時評估收斂性）。

density(line)

引數之間的關聯性，以及鏈內的自相關關係

levelplot(line[[2]])
acfplot(line)

統計摘要

執行MCMC的工具（在R內部）

邏輯Logistic迴歸：嬰兒出生體重低

logitmcmc(low~age+as.factor(race)+smoke )

plot(mcmc)

MCMC與GLM邏輯迴歸的比較

對於這個應用，沒有很好的理由使用貝葉斯建模，除非--你是 "貝葉斯主義者"。你有關於迴歸係數的真正先驗資訊（這基本上是不太可能的）。

一個主要的缺點是先驗分佈棘手的調整引數。

但是，MCMC可以擬合的一些更復雜的模型（例如，層次的logit MCMChlogit）。

Metropolis-Hastings

Metropolis-Hastings很好，很簡單，很普遍。但是對迴圈次數很敏感。而且可能太慢，因為它最終會拒絕大量的迴圈。

Gibbs 取樣

在Gibbs吉布斯抽樣中，你不是用適當的概率接受/拒絕，而是用適當的條件概率在引數空間中行進。並從該分佈中抽取一次。

然後你從新的條件分佈中抽取下一個引數。

比Metropolis-Hastings快得多。有效樣本量要高得多!

BUGS（OpenBUGS，WinBUGS）是使用吉布斯取樣器的貝葉斯推理。

JAGS是 "吉布斯取樣器"

其他取樣器

漢密爾頓蒙特卡洛（HMC）--是一種梯度的Metropolis-Hastings，因此速度更快，對引數之間的關聯性更好。

No-U Turn Sampler（NUTS）--由於不需要固定的長度，它的速度更快。這是STAN使用的方法（見http://arxiv.org/pdf/1111.4246v1.pdf）。

(Hoffman and Gelman 2011)

其他工具

你可能想建立你自己的模型，使用貝葉斯MC進行擬合，而不是依賴現有的模型。為此，有幾個工具可以選擇。

BUGS / WinBUGS / OpenBUGS (Bayesian inference Using Gibbs Sampling) - 貝葉斯抽樣工具的鼻祖（自1989年起）。WinBUGS是專有的。OpenBUGS的支援率很低。
JAGS（Just Another Gibbs Sampler）接受一個用類似於R語言的語法編寫的模型字串，並使用吉布斯抽樣從這個模型中編譯和生成MCMC樣本。可以在R中使用rjags包。
Stan（以Stanislaw Ulam命名）是一個類似於JAGS的相當新的程式--速度更快，更強大，發展迅速。從偽R/C語法生成C++程式碼。安裝：http://mc-stan.org/rstan.html**
Laplace’s Demon所有的貝葉斯工具都在R中： http://www.bayesian-inference.com/software

STAN

要用STAN擬合一個模型，步驟是:

為模型生成一個STAN語法虛擬碼（在JAGS和BUGS中相同
執行一個R命令，用C++語言編譯該模型
使用生成的函式來擬合你的資料

STAN示例--線性迴歸

STAN程式碼是R（例如，具有分佈函式）和C（即你必須宣告你的變數）之間的一種混合。每個模型定義都有三個塊。

1.資料塊:

int n; //
vector[n] y; // Y 向量

這指定了你要輸入的原始資料。在本例中，只有Y和X，它們都是長度為n的（數字）向量，是一個不能小於0的整數。

2. 引數塊

  real beta1;  // slope

這些列出了你要估計的引數：截距、斜率和方差。

3. 模型塊

sigma ~ inv_gamma(0.001, 0.001);
yhat[i] <- beta0 + beta1 * (x[i] - mean(x));}
y ~ normal(yhat, sigma);

注意:

你可以向量化，但迴圈也同樣快
有許多分佈（和 "平均值 "等函式）可用

請經常參閱手冊！https://github.com/stan-dev/stan/releases/download/v2.9.0/stan-reference-2.9.0.pdf

2. 在R中編譯模型

你把你的模型儲存在一個單獨的檔案中，然後用stan_model()命令編譯這個模型。

這個命令是把你描述的模型，用C++編碼和編譯一個NUTS取樣器。相信我，自己編寫C++程式碼是一件非常非常痛苦的事情（如果沒有很多經驗的話），而且它保證比R中的同等程式碼快得多。

注意：這一步可能會很慢。

3. 在R中執行該模型

這裡的關鍵函式是sampling()。還要注意的是，為了給你的模型提供資料，它必須是列表的形式

模擬一些資料。

X <- runif(100,0,20)
Y <- rnorm(100, beta0+beta1*X, sigma)

進行取樣!

sampling(stan, Data)

這裡有大量的輸出，因為它計算了

print(fit, digits = 2)

MCMC診斷法

為了應用coda系列的診斷工具，你需要從STAN擬合物件中提取鏈，並將其重新建立為mcmc.list。

extract(stan.fit
alply(chains, 2, mcmc)

最受歡迎的見解

1.matlab使用貝葉斯優化的深度學習

2.matlab貝葉斯隱馬爾可夫hmm模型實現

3.R語言Gibbs抽樣的貝葉斯簡單線性迴歸模擬

4.R語言中的block Gibbs吉布斯取樣貝葉斯多元線性迴歸

5.R語言中的Stan概率程式設計MCMC取樣的貝葉斯模型

6.Python用PyMC3實現貝葉斯線性迴歸模型

7.R語言使用貝葉斯層次模型進行空間資料分析

8.R語言隨機搜尋變數選擇SSVS估計貝葉斯向量自迴歸（BVAR）模型

9.matlab貝葉斯隱馬爾可夫hmm模型實現

▍關注我們【大資料部落】第三方資料服務提供商,提供全面的統計分析與資料探勘諮詢服務,為客戶定製個性化的資料解決方案與行業報告等。 ▍諮詢連結：http://y0.cn/teradat ▍聯絡郵箱：[email protected]

拓端tecdat|R語言貝葉斯MCMC：GLM邏輯迴歸、Rstan線性迴歸、Metropolis Hastings與Gibbs取樣演算法例項

原文連結：http://tecdat.cn/?p=23236 原文出處：拓端資料部落公眾號什麼是頻率學派？

拓端tecdat|基於貝葉斯模型的隨機森林預測方法分析汽車燃油經濟性

原文連結：http://tecdat.cn/?p=23075 原文出處：拓端資料部落公眾號這個例子展示瞭如何用Matlab實現貝葉斯優化，使用分位數誤差調整迴歸樹隨機森林的超引數。如果你打算使用模型來預測條件量值而不是條件平均值，

拓端tecdat|PYTHON貝葉斯推斷計算：用BETA先驗分佈推斷概率和視覺化案例

原文連結：http://tecdat.cn/?p=24084 原文出處：拓端資料部落公眾號在這篇文章中，我將擴充套件從資料推斷概率的示例，考慮 0 和 1之間的所有（連續）值，而不是考慮一組離散的候選概率。這意味著我們的先驗（和後

拓端tecdat|R語言貝葉斯Poisson泊松-正態分佈模型分析職業足球比賽進球數

原文連結：http://tecdat.cn/?p=23099 原文出處：拓端資料部落公眾號在本文關於如何在R中進行貝葉斯分析。我們介紹貝葉斯分析，這個例子是關於職業足球比賽的進球數。

拓端tecdat|R語言貝葉斯非引數模型：密度估計、非引數化隨機效應meta分析心肌梗死資料

原文連結：http://tecdat.cn/?p=23785 原文出處：拓端資料部落公眾號概述最近，我們使用貝葉斯非引數（BNP）混合模型進行馬爾科夫鏈蒙特卡洛（MCMC）推斷。

拓端tecdat：R語言貝葉斯廣義線性混合效應（多層次/水平/巢狀）模型GLMM、邏輯迴歸分析教育留級影響因素資料

原文連結：http://tecdat.cn/?p=24203 原文出處：拓端資料部落公眾號本教程使用R介紹了具有非資訊先驗的貝葉斯GLM（廣義線性模型）。

拓端tecdat：R語言RStan MCMC：NUTS取樣演算法用LASSO 構建貝葉斯線性迴歸模型分析職業聲望資料

原文連結：http://tecdat.cn/?p=24456 原文出處：拓端資料部落公眾號如果你正在進行統計分析：想要加一些先驗資訊，最終你想要的是預測。所以你決定使用貝葉斯。但是，你沒有共軛先驗。你可能會花費很長時間編寫 M

拓端tecdat|R語言JAGS貝葉斯迴歸模型分析博士生延期畢業完成論文時間

原文連結：http://tecdat.cn/?p=23652 原文出處：拓端資料部落公眾號本文為讀者提供瞭如何進行貝葉斯迴歸的基本教程。包括完成匯入資料檔案、探索彙總統計和迴歸分析。

拓端tecdat：R語言用貝葉斯線性迴歸、貝葉斯模型平均 (BMA)來預測工人工資

原文連結：http://tecdat.cn/?p=24141 原文出處：拓端資料部落公眾號背景貝葉斯模型提供了變數選擇技術，確保變數選擇的可靠性。對社會經濟因素如何影響收入和工資的研究為應用這些技術提供了充分的機會，同時也為

拓端tecdat：R語言STAN貝葉斯線性迴歸模型分析氣候變化影響北半球海冰範圍和視覺化檢查模型收斂性

原文連結：http://tecdat.cn/?p=24334 原文出處：拓端資料部落公眾號 1. 瞭解Stan 像任何統計建模一樣，貝葉斯建模可能需要為你的研究問題設計合適的模型，然後開發該模型，使其符合你的資料假設並執行。

R語言BUGS/JAGS貝葉斯分析: 馬爾科夫鏈蒙特卡洛方法（MCMC）取樣

原文連結：http://tecdat.cn/?p=17884 馬爾科夫鏈蒙特卡洛方法在許多情況下，我們沒有足夠的計算能力評估空間中所有n維畫素的後驗概率。在這些情況下，我們傾向於利用稱為Markov-Chain Monte Carlo演算法的程式。

R語言-樸素貝葉斯

我們還是用相親網站的資料來建立模型預測一個人是否約會成功：根據大數定律我們知道當資料足夠多的時候頻率等於概率，所以資料越大，我們用貝葉斯演算法預測的越準確

python實現貝葉斯網路怎麼匯入資料_Python下的資料大端序、小端序及網路序實現...

技術標籤：python實現貝葉斯網路怎麼匯入資料 Python是當前較為流行的程式語言，具有開源免費、上手簡單等特點，同時具有豐富強大的庫函式，能在眾多領域發揮重要作用。

[吳恩達團隊自然語言處理第一課_1]分類:邏輯迴歸與樸素貝葉斯

監督學習與情感分析 Supervised ML(training) V維特徵出現為1，否則為0，得出V維向量

機器學習演算法的R語言實現：樸素貝葉斯分類器

1、引子樸素貝葉斯方法是一種使用先驗概率去計算後驗概率的方法，其中樸素的意思實際上指的是一個假設條件，後面在舉例中說明。本人以為，純粹的數學推導固然有其嚴密性、邏輯性的特點，但對我等非數學專業的人來

R語言用貝葉斯線性迴歸、貝葉斯模型平均 (BMA)來預測工人工資|附程式碼資料

全文連結：http://tecdat.cn/?p=24141 最近我們被客戶要求撰寫關於貝葉斯線性迴歸的研究報告，包括一些圖形和統計輸出。

mooc機器學習第六天-K近鄰，決策樹，樸素貝葉斯分類器簡單嘗試

1.下面的程式碼是上一篇理論中的小例子 from sklearn.neighbors import KNeighborsClassifier # K近鄰分類器

機器學習：樸素貝葉斯分類器實現二分類（伯努利型）程式碼+專案實戰

一、樸素貝葉斯分類器的構建 import numpy as np class BernoulliNavieBayes: def __init__(self, alpha=1.):

機器學習實戰---樸素貝葉斯演算法

一：準備資料（一）載入原始資料 import numpy as np def loadDataSet(): postingList=[[\'my\', \'dog\', \'has\', \'flea\', \'problems\', \'help\', \'please\'],#每一行詞表，代表一個文件

樸素貝葉斯演算法

一、概述貝葉斯分類演算法是統計學的一種概率分類方法，樸素貝葉斯分類是貝葉斯分類中最簡單的一種。其分類原理就是利用貝葉斯公式根據某特徵的先驗概率計算出其後驗概率，然後選擇具有最大後驗概率的類作為該特徵

拓端tecdat|R語言貝葉斯MCMC：GLM邏輯迴歸、Rstan線性迴歸、Metropolis Hastings與Gibbs取樣演算法例項

原文連結：http://tecdat.cn/?p=23236

原文出處：拓端資料部落公眾號

什麼是頻率學派？

什麼是貝葉斯學派？

目標

實際應用中：為什麼用貝葉斯

貝葉斯法則：

目標:

計算

MCMC

Metropolis-Hastings 演算法

Metropolis-Hastings: 硬幣例子

取樣鏈：調整、細化、多鏈

MCMC 診斷法

MCMC診斷法

統計摘要

執行MCMC的工具（在R內部）

邏輯Logistic迴歸：嬰兒出生體重低

MCMC與GLM邏輯迴歸的比較

MCMC與GLM邏輯迴歸的比較

Metropolis-Hastings

Gibbs 取樣

其他取樣器

其他工具

STAN

STAN示例--線性迴歸

2. 在R中編譯模型

3. 在R中執行該模型

MCMC診斷法

相關推薦