極大似然估計的一些學習整理

阿新 • • 發佈：2019-01-01

尊重原創，尊重每個人的成果，所以把參考的博文放在首位：

極大似然估計法：

思想：利用已知的樣本結果，反推最有可能（最大概率）導致這樣結果的引數值！

例子：

設有一批產品，甲認為次品率為0.1，乙認為次品率為0.3，現從產品中隨機抽取15件，發現有5件詞頻，問甲乙誰的估計更準一些？

解：記詞頻數為X，則X~B（n,p）

若次品率 p = 0.1，則15件中有5件次品的概率為：

若次品率p = 0.3，則15件中有5件次品的概率為：

則，後一概率明顯大於前一概率，因此用次品率為0.3的估計值更可靠一些。

前提：訓練樣本的分佈能代表樣本的真實分佈。每個樣本集中的樣本都是所謂獨立同分布的隨機變數 (iid條件)，且有充分的訓練樣本。

推導：

由於樣本集中的樣本都是獨立同分布，可以只考慮一類樣本集D，來估計引數向量θ。記已知的樣本集為：

似然函式（linkehood function）：聯合概率密度函式稱為相對於的θ的似然函式。

如果是引數空間中能使似然函式最大的θ值，則應該是“最可能”的引數值，那麼就是θ的極大似然估計量。它是樣本集的函式，記作：

求解極大似然函式

ML估計：求使得出現該組樣本的概率最大的θ值。

實際中為了便於分析，定義了對數似然函式：

1. 未知引數只有一個（θ為標量）

在似然函式滿足連續、可微的正則條件下，極大似然估計量是下面微分方程的解：

2.未知引數有多個（θ為向量）

則θ可表示為具有S個分量的未知向量：

記梯度運算元：

若似然函式滿足連續可導的條件，則最大似然估計量就是如下方程的解。

方程的解只是一個估計值，只有在樣本數趨於無限多的時候，它才會接近於真實值。

極大似然估計的例子

例1：設樣本服從正態分佈，則似然函式為：

它的對數：

求導，得方程組：

聯合解得：

似然方程有唯一解

：，而且它一定是最大值點，這是因為當

或

時，非負函式

。於是U和

的極大似然估計為

。

例2：設樣本服從均勻分佈[a, b]。則X的概率密度函式：

對樣本：

很顯然，L(a,b)作為a和b的二元函式是不連續的，這時不能用導數來求解。而必須從極大似然估計的定義出發，求L(a,b)的最大值，為使L(a,b)達到最大，b-a應該儘可能地小，但b又不能小於，否則，L(a,b)=0。類似地a不能大過，因此，a和b的極大似然估計：

求最大似然估計量的一般步驟：

（1）寫出似然函式；

（2）對似然函式取對數；

（3）求導數(偏導)；

（4）解似然方程。

最大似然估計的特點：

1.比其他估計方法更加簡單；

2.收斂性：無偏或者漸近無偏，當樣本數目增加時，收斂性質會更好；

3.如果假設的類條件概率模型正確，則通常能獲得較好的結果。但如果假設模型出現偏差，將導致非常差的估計結果。

經典演算法模型例子：

邏輯迴歸原理及公式推導

1.線性迴歸的主要思想是通過歷史資料擬合出一條直線，來進行預測

$z = \theta^{_{0}}+ \theta^{_{1}}x_{1} + \theta^{_{2}}x_{2}+.......+ \theta^{_{n}}x_{n} = \theta ^{T}X$

2.邏輯迴歸是基於線性迴歸，將線性迴歸的值對映到（0,1）上

$h_{\theta }(x) =\frac{1}{1+e^{-z}} = \frac{1}{1+e^{-\theta ^{T}X}}$

其中， $y=\frac{1}{1+e^{-x}}$ 為sigmoid函式

當 $h_{\theta }(x)<0.5$ ,x屬於A類

當 $h_{\theta }(x)\geq 0.5$ ,x屬於B類

$P(y=1|x;\theta ) = h_{\theta }(x)$

$P(y=0|x;\theta ) =1- h_{\theta }(x)$

概率函式為：

$P(y|x;\theta ) =(h_{\theta }(x))^{y}*(1- h_{\theta }(x))^{1-y}$

因為樣本資料獨立，所以它們的聯合分佈可以表示為各邊際分佈的乘積，取似然函式為：

$L(\theta ) = \coprod_{i=1}^{m}p(y^{(i)}|x^{(i)};\theta ) = \coprod_{i=1}^{m}(h_{\theta }(x^{(i)}))^{^{y^{(i)}}}*(1-h_{\theta }(x^{(i)}))^{^{1-y^{(i)}}}$

取對數似然函式：

$l(\theta )=log(L(\theta )) =\frac{1}{m} \sum_{i=1}^{m}(y^{(i)}\cdot log(h_{\theta })+ (1-y^{(i)})\cdot log(1-(h_{\theta })))$

最大似然估計就是要求 $l(\theta )$ 的值最大時的 $\theta$ ，這裡可以使用梯度上升法。

$J(\theta ) = -\frac{1}{m}l(\theta)$

因乘了一個負的係數，所以可以用梯度下降求解！

極大似然估計的一些學習整理

尊重原創，尊重每個人的成果，所以把參考的博文放在首位：極大似然估計法：思想：利用已知的樣本結果，反推最有可能（最大概率）導致這樣結果的引數值！例子：設有一批產品，甲認為次品率為0.1，乙認為次品率為0.3，現從產品中隨機抽取15件，發現有5件詞頻，問甲

機器學習之線性迴歸極大似然估計法

leboop文章，禁止轉載！請閱讀《機器學習之矩陣微積分及其性質》和《機器學習之線性迴歸公式推導》。首先我們還是使用如下的資料： feature_1 feature_2 feature_n

機器學習筆記（一）：極大似然估計與貝葉斯估計的區別

似然函式：樣本資料的分佈和在引數為下的概率分佈的相似程度極大似然估計：只要求出符合樣本資料分佈的最優引數即可，不需要考慮先驗。貝葉斯估計 MAP（最大後驗估計）

機器學習學習筆記之二——大數定律、中心極限定理以及極大似然估計理解與用法

極大似然估計法常常出現在機器學習演算法的推導過程中，其使用場景或者說功能正是：以已有樣本、已有公式去估計引數，最大可能的那個引數。這樣來理解，極大似然估計法其實和機器學習演算法的目標都是一樣的。那麼極大似然估計法如何來用呢？

機器學習----貝葉斯分類器（貝葉斯決策論和極大似然估計）

貝葉斯決策論貝葉斯決策論（Bayesian decision theory）是概率框架下實施決策的基本方法。在所有相關概率都已知的理想情況下，貝葉斯決策論考慮如何基於這些概率和誤判斷來選擇最優的類別標記。假設有N種可能的類別標記，即Y={c1,c2,.

機器學習：極大似然估計

一、問題描述二、演算法核心思想分析三、程式碼及執行結果 a.py import xlrd import numpy as np # 讀取資料 def read_d

機器學習筆記（二）矩估計，極大似然估計

1.引數估計：矩估計樣本統計量設X1,X2…Xn…為一組樣本，則 - 樣本均值 : X¯¯¯=1n∑i=1nXi - 樣本方差：S2=1n−1∑i=1n(Xi−X¯¯¯

MATLAB學習筆記：極大似然估計

極大似然估計的步驟： 1、寫出似然函式 2、對似然函式取對數，並整理 3、求導數 4、解似然方程極大似然估計的Matlab命令mle呼叫格式： phat=mle(data) 返回服從正態分佈的資料引數的極大似然估計。 phat=mle(data,'distributi

極大似然估計是經驗風險最小化的理解（統計學習方法）

看過李航老師的《統計學習方法》的同學都知道，機器學習（統計學習）的三要素為：模型、策略、和演算法。其中，模型就是所要學習的條件概率分佈或者決策函式。模型的假設空間包含所有可能的條件概率分佈或決策函式。統計學習的目標在於從假設空間中選取最優模型。其中的兩種選擇最優模型的策略就是

概率統計與機器學習：獨立同分布，極大似然估計，線性最小二乘迴歸

獨立同分布獨立性概念：事件A，B發生互不影響公式：P(XY)=P(X)P(Y) ，即事件的概率等於各自事件概率的乘積舉例：正例：兩個人同時向上拋硬幣，兩個硬幣均為正面的概率反例：獅子在某地區出現的概率為X，老虎出現概率為Y，同時出現

【ML學習筆記】17：多元正態分佈下極大似然估計最小錯誤率貝葉斯決策

簡述多元正態分佈下的最小錯誤率貝葉斯如果特徵的值向量服從d元正態分佈，即其概率密度函式為：即其分佈可以由均值向量和對稱的協方差矩陣唯一確定。如果認為樣本的特徵向量在類內服從多元正態分佈：即對於每個類i，具有各自的類內的均值向量和協

機器學習演算法（1）——極大似然估計與EM演算法

極大似然估計在講解極大似然估計前，需要先介紹貝葉斯分類：貝葉斯決策：首先來看貝葉斯分類，經典的貝葉斯公式： &nb

python機器學習案例系列教程——極大似然估計、EM演算法

極大似然極大似然（Maximum Likelihood）估計為用於已知模型的引數估計的統計學方法。也就是求使得似然函式最大的代估引數的值。而似然函式就是如果引數已知則已出現樣本出現的概率。比如，我們想了解拋硬幣是正面（head）的概率分佈θθ

統計學習方法第四章極大似然估計的樸素貝葉斯分類方法例題4.1程式碼實踐

#-*- coding:utf-8 -*- from numpy import * #將書上的資料輸入，這裡懶得輸入那麼多個列表就用下array的轉置方法吧！就用這個方法吧0.0 def loadDataSet(): dataSet=[[1,1,1,1,1,2,2,2,2,2,3,3,3,3,3],

從極大似然估計的角度理解深度學習中loss函式

從極大似然估計的角度理解深度學習中loss函式為了理解這一概念,首先回顧下最大似然估計的概念: 最大似然估計常用於利用已知的樣本結果,反推最有可能導致這一結果產生的引數值,往往模型結果已經確定,用於反推模型中的引數.即在引數空間中選擇最有可能導致樣本結果發生的引數.因為結果已知,則某一引數使得結果產生的概率

極大似然估計

nbsp 比較拋硬幣 http 技術 bsp 可行性 img 就是知乎上這篇文章介紹的比較形象：https://www.zhihu.com/question/24124998 先比較下概率和似然，把硬幣的"花"出現的概率稱為硬幣的參數 1. 概率VS似然 1.1 概率

極大似然估計的理解與應用

view 屬於是我中一都是關於例子 max 同時極大似然估計是概率論中一個很常用的估計方法，在機器學習中的邏輯回歸中就是基於它計算的損失函數，因此還是很有必要復習一下它的相關概念的。背景先來看看幾個小例子：獵人師傅和徒弟一同去打獵，遇到一只兔子，師傅

極大似然估計與貝葉斯定理

lan 說明概率論可能性聯合訓練樣本對數 www. 條件文章轉載自：https://blog.csdn.net/zengxiantao1994/article/details/72787849 極大似然估計-形象解釋看這篇文章：https://www.zhihu

極大似然估計和EM算法

tle 標準 rod 獨立 ble com 評估 n) date title: 最大似然估計和EM算法 date: 2018-06-01 16:17:21 tags: [算法，機器學習] categories: 機器學習 mathjax: true --- 本文是對最大似

極大似然估計思想的最簡單解釋

發生小孩 rom 內容需要 https 處的形式相同極大似然估計思想的最簡單解釋 https://blog.csdn.net/class_brick/article/details/79724660?from=timeline 極大似然估計法的理解可以從三