1. 程式人生 > >極大似然估計的樸素理解

極大似然估計的樸素理解

轉自:http://www.zhizhihu.com/html/y2010/1520.html

最大似然法,英文名稱是Maximum Likelihood Method,在統計中應用很廣。這個方法的思想最早由高斯提出來,後來由菲舍加以推廣並命名。

最大似然法是要解決這樣一個問題:給定一組資料和一個引數待定的模型,如何確定模型的引數,使得這個確定引數後的模型在所有模型中產生已知資料的概率最 大。通俗一點講,就是在什麼情況下最有可能發生已知的事件。舉個例子,假如有一個罐子,裡面有黑白兩種顏色的球,數目多少不知,兩種顏色的比例也不知。我 們想知道罐中白球和黑球的比例,但我們不能把罐中的球全部拿出來數。現在我們可以每次任意從已經搖勻的罐中拿一個球出來,記錄球的顏色,然後把拿出來的球 再放回罐中。這個過程可以重複,我們可以用記錄的球的顏色來估計罐中黑白球的比例。假如在前面的一百次重複記錄中,有七十次是白球,請問罐中白球所佔的比 例最有可能是多少?

我想很多人立馬有答案:70%。這個答案是正確的。可是為什麼呢?(常識嘛!這還要問?!)其實,在很多常識的背後,都有相應的理論支援。在上面的問題 中,就有最大似然法的支援。

在很久以前的一個下午,自己在圖書館看書,書中講到了同一獨立分佈(i.i.d., identical and independent distribution),與概率相關。當時已經聽說最大似然法很長時間了,最大似然法在不同場合應用的結論看過不少,但自己還沒有真正地學習和應用 過。突然想到了上面的例子(類似的例子在自己以後的閱讀很常見,當時沒有意識到自己到底以前看過類似的例子沒有),決定自己動手算一算。

下面會有一些數學,我知道西河比較深,大牛比較多,看了不要見笑。有意見和建議儘管提。

我們假設罐中白球的比例是p,那麼黑球的比例就是1-p。因為每抽一個球出來,在記錄顏色之後,我們把抽出的球放回了罐中並搖勻,所以每次抽出來的球的顏 色服從同一獨立分佈。這裡我們把一次抽出來球的顏色稱為一次抽樣。題目中在一百次抽樣中,七十次是白球的概率是P(Data | M),這裡Data是所有的資料,M是所給出的模型,表示每次抽出來的球是白色的概率為p。如果第一抽樣的結果記為x1,第二抽樣的結果記為x2,。。。 那麼Data = (x1,x2,...,x100)。這樣,
P(Data | M)
= P(x1,x2,...,x100|M)
= P(x1|M)P(x2|M)...P(x100|M)
= p^70(1-p)^30.
那麼p在取什麼值的時候,P(Data |M)的值最大呢?將p^70(1-p)^30對p求導,並其等於零。
70p^69(1-p)^30-p^70*30(1-p)^29=0。
解方程可以得到p=0.7。
在邊界點p=0,1,P(Data|M)=0。所以當p=0.7時,P(Data|M)的值最大。這和我們常識中按抽樣中的比例來計算的結果是一樣的。

當時,自己推到完這些,心情很高興,感覺自己理解了最大似然法。接著想到了連續變數。

假如我們有一組連續變數的取樣值(x1,x2,...,xn),我們知道這組資料服從正態分佈,標準差已知。請問這個正態分佈的期望值為多少時,產生這個 已有資料的概率最大?
P(Data | M) = ??

求導,u=(x1+x2+...+xn)/n.這個正態分佈的期望值,就是這組資料的均值。在我們的日常生活和工作中,我們經常會用到平均值,這是有道理 的,可以用最大似然法來解釋。如果資料服從正態分佈,這是最可能的資料。

當我第一次自己推匯出這些的時候,心中有一種豁然開朗、恍然大悟的感覺:最大似然法就這樣!

最大似然法原理簡單,應用很廣。舉個例子,這樣的情況在生活會經常遇到。假如人們會感染一種病毒,有一種測試方法,在被測試者已感染這個病毒時,測試結果 為陽性的概率為95%。在被測試者沒有感染這個病毒時,測試結果為陽性的概率為2%。現在,有一個人的測試結果為陽性,問這個人感染了病毒嗎?根據最大似 然法,如果一個人感染病毒,95%的測試結果會為陽性;而如果這個人沒有感染病毒,只有2%的測試結果會為陽性,所以這個人應該是已經感染病毒了。

最大似然法應用廣泛,但是經常會受到一種批評,而且對於這種批評,尤其在資料量比較小的時候,最大似然法的支持者沒有很多充分的反駁理由:在最大似然法 中,只考慮了由一個模型產生一個已知資料的概率,而沒有考慮模型本身的概率。相對應的考慮了模型本身概率的方法,是貝葉斯方法(Bayesian method)。

在上面測試病毒的例子中,如果我們知道在整體人群中,只有1%人會感染這種病毒,那麼,根據貝葉斯方法,這個被測試者只有1/3左右的可能性感染了病毒 {1%*95%/(1%*95%+99%*2%)=32.4%}
在這裡,我們看到先驗概率對結果的影響很大。

不過,當資料量比較大的時候,先驗概率的影響就會減小。比如,人們在被檢測出感染了一個嚴重的病毒後,一般會去其他醫院複查。假如同一個人在三家醫院進行 了獨立的檢查,結果都是陽性。那麼,這個人真正感染了病毒的概率有多大?在這個人感染病毒時,出現這種檢測結果的可能性為95%*95%*95% = 85.7%;而在這個人沒有感染病毒時,出現這種檢測結果的可能性為2%*2%*2% = 0.000008。根據最大似然法,我們應選擇這個人感染了病毒。

根據貝葉斯方法,這個人感染病毒的概率為1%*95%*95%*95%/(1%*95%*95%*95%+99%*2%*2%*2%) = 99.9%。

當然,當時自己主要體會了同一獨立分佈在最大似然法中的要求。在以後的一個應用中,才對“模型已知,引數未定”這一要求有了進一步的認識。

相關推薦

極大估計理解與應用

view 屬於 是我 中一 都是 關於 例子 max 同時 極大似然估計是概率論中一個很常用的估計方法,在機器學習中的邏輯回歸中就是基於它計算的損失函數,因此還是很有必要復習一下它的相關概念的。 背景 先來看看幾個小例子: 獵人師傅和徒弟一同去打獵,遇到一只兔子,師傅

極大估計理解

我們平時做影象的目標檢測也好,做大資料精準推薦也好,說到底就是做個分類,來一個數據,判斷一下它的類別,該是誰的給誰。 假設有K個類別{C1,C2,...,Ck},來一條資料x,它屬於K個類別的概率分別記為P(C1|x), P(C2|x), ..., P(Ck,|x), 當然

極大估計樸素理解

轉自:http://www.zhizhihu.com/html/y2010/1520.html 最大似然法,英文名稱是Maximum Likelihood Method,在統計中應用很廣。這個方法的思想最早由高斯提出來,後來由菲舍加以推廣並命名。 最大似然法是要解決這樣一個

極大估計法推出樸素貝葉斯法中的先驗概率估計公式如何理解

下面的答案將先照《統計學習方法》一書將問題補充完整,以便手上沒這本書的人也能看明白,然後再給出推導過程。 設輸入空間為 n 維向量的集合,輸出空間為類標記集合 {}。輸入為特徵向量 x 屬於輸入空間,輸出為類標記 y 屬於輸出空間。X 是定義在輸入空間上的隨機向量,Y 是定義

極大估計與貝葉斯的理解

轉自http://blog.csdn.net/zengxiantao1994/article/details/72787849 極大似然估計         以前多次接觸過極大似然估計,但一直都不太明白到底什麼原理,最近在看貝葉斯分類,

極大估計法的理解

極大似然估計法 1 前言 這幾天在研究機器學習的過程中,經常見到極大似然估計法,這個方法似乎運用十分廣泛,因此在網上找了一些資源,特此整合,以便自己經常翻閱。 2 原理和方法 網上給出了兩個經典例子: 1一位老獵人和一個學徒出去打獵,獵捕到了一隻野兔,那麼是誰打

極大估計的個人理解

    假設某批樣本就服從某個分佈。極大似然估計就是估計某個引數支援這個分佈(既引數只有取這個值時,我們出現的分佈最有可能是當前呈現的分佈,如果引數不是這個值,那最有可能呈現的分佈就是其他的分佈)。這樣對某個函式的引數的求值就轉化為求似然函式最大時對應的的引數值。接下來是如何求似然函式最

機器學習學習筆記之二——大數定律、中心極限定理以及極大估計理解與用法

  極大似然估計法常常出現在機器學習演算法的推導過程中,其使用場景或者說功能正是: 以已有樣本、已有公式去估計引數,最大可能的那個引數。   這樣來理解,極大似然估計法其實和機器學習演算法的目標都是一樣的。那麼極大似然估計法如何來用呢?    

極大估計、梯度下降、線性迴歸、邏輯迴歸的理解

極大似然 我對極大似然估計條件概率(後驗概率)和先驗概率的的理解:假設一次實驗,可能出現兩種結果,A或者B 總共進行了50次實驗,A出現了20次,B出現了30次,那麼求A的概率p。 問題來了,怎麼求一個合理的p值呢 L表示A出現的概率為p的情況下,進行50次實驗,各種

簡單理解極大估計MLE

簡單理解極大似然估計(MLE) 基本思想 使資料集中資料出現的概率(似然)最大 舉例描述 假設某一個新聞文件資料集下有體育、財經、遊戲等分類,已知體育類下的所有文件中“籃球“一詞出現了100次(可以統計得出,此處為了方便表示取成100),體育類下所有

極大估計是經驗風險最小化的理解(統計學習方法)

看過李航老師的《統計學習方法》的同學都知道,機器學習(統計學習)的三要素為:模型、策略、和演算法。其中,模型就是所要學習的條件概率分佈或者決策函式。模型的假設空間包含所有可能的條件概率分佈或決策函式。統計學習的目標在於從假設空間中選取最優模型。其中的兩種選擇最優模型的策略就是

理解極大估計(MLE)

要求 三次 出了 發生 ima 不清楚 思想 區間 最大的 極大似然估計學習時總會覺得有點不可思議,為什麽可以這麽做,什麽情況才可以用極大似然估計。本文旨在通俗理解MLE(Maximum Likelihood Estimate)。 一、極大似然估計的思想與舉例 舉

統計學習方法第四章極大估計樸素貝葉斯分類方法例題4.1程式碼實踐

#-*- coding:utf-8 -*- from numpy import * #將書上的資料輸入,這裡懶得輸入那麼多個列表就用下array的轉置方法吧!就用這個方法吧0.0 def loadDataSet(): dataSet=[[1,1,1,1,1,2,2,2,2,2,3,3,3,3,3],

極大估計的角度理解深度學習中loss函式

從極大似然估計的角度理解深度學習中loss函式 為了理解這一概念,首先回顧下最大似然估計的概念: 最大似然估計常用於利用已知的樣本結果,反推最有可能導致這一結果產生的引數值,往往模型結果已經確定,用於反推模型中的引數.即在引數空間中選擇最有可能導致樣本結果發生的引數.因為結果已知,則某一引數使得結果產生的概率

極大估計

nbsp 比較 拋硬幣 http 技術 bsp 可行性 img 就是 知乎上這篇文章介紹的比較形象:https://www.zhihu.com/question/24124998 先比較下概率和似然,把硬幣的"花"出現的概率稱為硬幣的參數 1. 概率VS似然 1.1 概率

極大估計與貝葉斯定理

lan 說明 概率論 可能性 聯合 訓練樣本 對數 www. 條件 文章轉載自:https://blog.csdn.net/zengxiantao1994/article/details/72787849 極大似然估計-形象解釋看這篇文章:https://www.zhihu

極大估計和EM算法

tle 標準 rod 獨立 ble com 評估 n) date title: 最大似然估計和EM算法 date: 2018-06-01 16:17:21 tags: [算法,機器學習] categories: 機器學習 mathjax: true --- 本文是對最大似

極大估計思想的最簡單解釋

發生 小孩 rom 內容 需要 https 處的 形式 相同 極大似然估計思想的最簡單解釋 https://blog.csdn.net/class_brick/article/details/79724660?from=timeline 極大似然估計法的理解可以從三

【R語言-20行程式碼】牛頓迭代法求伽馬函式極大估計法的引數估計

簡述 研究了下計算公式,簡化了一下,用r語言實現了。 演算法解釋 牛頓迭代法 x

轉載 極大估計

原文章地址:https://blog.csdn.net/zengxiantao1994/article/details/72787849 寫的很好 歡迎去看原作者文章 極大似然估計         以前多次接觸過極大似然估計,但一直都不太明白到底什