1. 程式人生 > >貝葉斯線性迴歸(Bayesian Linear Regression)

貝葉斯線性迴歸(Bayesian Linear Regression)

關於引數估計

   在很多機器學習或資料探勘的問題中,我們面對的只有資料,但資料中潛在的概率密度函式我們是不知道的,我們需要用資料將概率密度分佈估計出來。想要確定資料對應的概率密度分佈,我們需要確定兩個東西:①概率密度函式的形式;②概率密度函式的引數。
   一般情況下,都是先假定資料是具有某種概率分佈的,然後再通過資料計算出這些資料對應這個概率分佈所對應的引數是什麼。而常用的引數估計方法有:極大似然估計、最大後驗估計、貝葉斯估計、最大熵估計、混合模型估計。它們之間是遞進關係的,想要理解後一個引數估計方法,最好對前一個引數估計有足夠的理解。因此想要理解貝葉斯線性迴歸,或者叫做貝葉斯引數估計,就必須對極大似然估計、最大後驗估計有清楚的理解。

極大似然估計

   首先,以一個分類問題來說明一般引數估計面對的資料形式。考慮一個M類的問題,特徵向量服從p(x|wi),i=1,2,...,M分佈。這是現實情況中最常見的一種資料存在形式,資料集合X是由M個類別的資料子集Xmm=12...M組成的,第m個類別的資料子集Xm對應的概率密度函式是p(x|wm)
   前面已經介紹過,想要確定資料的概率分佈,需要知道概率密度函式的形式和引數,這裡首先做一個基本的假設:概率分佈的形式已知,比如,假設每個類別的資料都滿足高斯分佈,那麼似然函式就可以用引數θi的形式表示,這裡θi表示的是類別i對應的引數向量。如果是高斯分佈,則有兩個引數:μ

iσ2i,也就是說θi=(μi,σ2i)
   為了強調概率分佈p(x|wi)θi有關,可以將對應的概率密度函式記為p(x|wi;θi),這裡的極大似然估計對應於一個類條件概率密度函式。所謂“類條件”其實就是以類別為條件的概率密度函式。
   從上面的描述可以知道,利用每一個類Xi中已知的特徵向量集合,可以估計出其對應的引數θi。進一步假設每一個類中的資料不影響其它類別的資料的引數估計,那麼上面個M個類別的引數估計就可以用下面這個統一的模型獨立的解決。
   設x1,x2,...,xN是從概率密度函式p(x;θ)中隨機抽取的樣本,那麼就可以得到聯合概率密度函式p(X;θ),其中X=
{x1,x2,...,xN}
是樣本集合。假設不同的樣本之間具有統計獨立性,那麼:

p(X;θ)p(x1,x2,...,xN;θ)=k=1Np(xk;θ)注意:這裡的p(xk;θ)本來的寫法是p(x|wi;θi),是一個類條件概率密度函式,只是因為這裡是一個統一的模型,所以可以將wi省略。
   此時,就可以使用最大似然估計(Maximum Likelihood,ML)來估計引數θ了:θ^ML=argmaxθk=1Np(xk;θ)為了得到最大值,θ^ML必須滿足的必要條件是,似然函式對θ的梯度必須為0,即:Nk=1p(xk;θ)θ=0但是,一般採用的是似然函式的對數形式L(θ)lnk=1Np(xk;θ) L(θ)

相關推薦

線性迴歸Bayesian Linear Regression

關於引數估計    在很多機器學習或資料探勘的問題中,我們面對的只有資料,但資料中潛在的概率密度函式我們是不知道的,我們需要用資料將概率密度分佈估計出來。想要確定資料對應的概率密度分佈,我們需要確定兩個東西:①概率密度函式的形式;②概率密度函式的引數。   

【機器學習】線性迴歸最大後驗估計+高先驗

引言 如果要將極大似然估計應用到線性迴歸模型中,模型的複雜度會被兩個因素所控制:基函式的數目(的維數)和樣本的數目。儘管為對數極大似然估計加上一個正則項(或者是引數的先驗分佈),在一定程度上可以限制模型的複雜度,防止過擬合,但基函式的選擇對模型的效能仍然起著決定性的作用。

簡單線性迴歸Simple Linear Regression

1、簡單線性迴歸模型舉例: 汽車賣家做電視廣告數量與賣出的汽車數量: 如何訓練適合簡單線性迴歸模型的最佳迴歸線? 使sum of squares最小 計算 分子 = (1-2)(14-20)+(3-2)(24-20)+(2-2)(18-20)+(1-2)(17-2

機器學習5 正則化的線性迴歸Regularized Linear Regression和偏差對方差Bias v.s. Variance

在這篇博文中我們將會實現正則化的線性迴歸以及利用他去學習模型,不同的模型會具有不同的偏差-方差性質,我們將研究正則化以及偏差和方差之間的相互關係和影響。 這一部分的資料是關於通過一個水庫的水位來預測水庫的流水量。為了進行偏差和方差的檢驗,這裡用12組資料進行迴

深入理解線性迴歸演算法:淺談線性迴歸

前言 上文介紹了正則化項與貝葉斯的關係,正則化項對應於貝葉斯的先驗分佈,因此通過設定引數的先驗分佈來調節正則化項。本文首先介紹了貝葉斯線性迴歸的相關性質,和正則化引數λ的作用,然後簡單介紹了貝葉斯思想的模型比較,最後總結全文。   目錄 1、後驗引數分佈和預測變數分

線性迴歸簡介附完整程式碼

今晚(4月25日)8點,七月線上公開課【如何從零轉崗AI】,點選文末“閱讀原文”進入直播間。作者

【機器學習】線性迴歸模型

假設當前資料為X,迴歸引數為W,結果為B,那麼根據貝葉斯公式,可以得到後驗概率: ,我們的目標是讓後驗概率最大化。其中pD概率是從已知資料中獲取的量,視為常量;pw函式是w分佈的先驗資訊。 令:   求l函式最大化的過程稱為w的極大似然估計(ML),求pie函式最小化的

入門 | 線性迴歸方法的解釋和優點

本文對比了頻率線性迴歸和貝葉斯線性迴歸兩種方法,並對後者進行了詳細的介紹,分析了貝葉斯線性迴歸的

線性迴歸/迴歸

參考資料: 1、http://blog.csdn.net/daunxx/article/details/51725086 2、http://blog.csdn.net/dark_scope/article/details/8558244 3、http://blog.si

樸素分類器Naive Bayes Classifiers

本文討論的是樸素貝葉斯分類器( Naive Bayes classifiers)背後的理論以及其的實現。 樸素貝葉斯分類器是分類演算法集合中基於貝葉斯理論的一種演算法。它不是單一存在的,而是一個演算法家族,在這個演算法家族中它們都有共同的規則。例如每個被分類的

機器學習:網淺析附程式碼實現

貝葉斯網的目的是為了從已知屬性推測其他未知屬性的取值。貝葉斯網是描述屬性間依賴關係的有向無環圖,並使用概率分佈表描述屬性的聯合概率分佈。如下圖(A指向B表示B依賴於A):貝葉斯網由結構G和引數Θ組成,即B=<G,Θ>。Θ定量描述了屬性間的依賴關係,即Θ包含了每個屬

常用分類問題的演算法-樸素分類器Naive Bayes Classifiers

樸素貝葉斯分類器是分類演算法集合中基於貝葉斯理論的一種演算法。它不是單一存在的,而是一個演算法家族,在這個演算法家族中它們都有共同的規則。例如每個被分類的特徵對與其他的特徵對都是相互獨立的。 樸素貝葉斯分類器的核心思想是: 1、將所有特徵的取值看成已經發生的

分類器含MATLAB實現

由於被測試的模式特徵向量通常存在隨機性,所獲得的模式樣本有一定的統計分佈。因此,採用統計決策的理論方法進行模式分類是常用的模式識別方法。這也是遙感影象土地分類的常用方法。統計決策函式以貝葉斯定理為基礎,一般需要滿足兩個基本條件: 1)已知模式向量的有關概率分佈先驗知識,如先

淺析高過程迴歸Gaussian process regression

前言              高斯過程迴歸的和其他迴歸演算法的區別是:一般迴歸演算法給定輸入X,希望得到的是對應的Y值,擬合函式可以有多種多樣,線性擬合、多項式擬合等等,而高斯迴歸是要得到函式f(x)的分佈,那麼是如何實現的呢?         對於資料集 ,令 

機器學習系列——樸素分類器

表示 -h line log ima 條件 code 樸素貝葉斯 spa 貝葉斯定理: 其中: 表示事件B已經發生的前提下,事件A發生的概率,叫做事件B發生下事件A的條件概率。其基本求解公式為:。 機器學習系列——樸素貝葉斯分類器(二)

機器學習:分類器——高樸素分類器代碼實現

mod ces 數據 大於等於 即使 平均值 方差 很多 mode 一 高斯樸素貝葉斯分類器代碼實現 網上搜索不調用sklearn實現的樸素貝葉斯分類器基本很少,即使有也是結合文本分類的多項式或伯努利類型,因此自己寫了一遍能直接封裝的高斯類型NB分類器,當然與真正的源碼相

機器學習---樸素分類器Machine Learning Naive Bayes Classifier

垃圾郵件 垃圾 bubuko 自己 整理 href 極值 multi 帶來 樸素貝葉斯分類器是一組簡單快速的分類算法。網上已經有很多文章介紹,比如這篇寫得比較好:https://blog.csdn.net/sinat_36246371/article/details/601

樸素算法Naive Bayes

ive log 分布 做了 規模 line clas 獨立 輸入數據 1. 前言 說到樸素貝葉斯算法,首先牽扯到的一個概念是判別式和生成式。 判別式:就是直接學習出特征輸出\(Y\)和特征\(X\)之間的關系,如決策函數\(Y=f(X)\),或者從概率論的角度,求出條件分

哈爾濱工業大學計算機學院-模式識別-課程總結-決策理論

風險 沒有 關系 有關 href 屬性 決策 分類 tps 一、貝葉斯決策理論 貝葉斯決策理論是解決分類問題的一種基本統計途徑,其出發點是利用概率的不同分類決策,與相應決策所付出的代價進行折中,它假設決策問題可以用概率的形式描述,並且假設所有有關的概率結構均已知。 二、各種

《機器學習》 周志華學習筆記第七章 分類器課後習題python 實現

課後習題答案 1.試用極大似然法估算西瓜集3.0中前3個屬性的類條件概率。 好瓜有8個,壞瓜有9個 屬性色澤,根蒂,敲聲,因為是離散屬性,根據公式(7.17) P(色澤=青綠|好瓜=是) = 3/8 P(色澤=烏黑|好瓜=是) = 4/8 P(色澤=淺白|好瓜=是) =