1. 程式人生 > >機器學習之引數估計

機器學習之引數估計

Probability Theory focus on computing the probability of data arising from a parametric model with known parameters. Statistical Inference flips this on its head: we will estimate the probability of parameters given a parametric model and observed data drawn from it.

比如我得到了一些樣本資料,並已知這些資料底層的分佈是指數分佈,但是並不知道具體是哪個指數分佈!因為指數分佈不是一個確定的分佈,而是 one-parameter family of distributions.

不同的引數 λ 會得到不同的指數分佈。正態分佈,二項分佈也都是同樣的道理,不同的引數會得到不同的結果。我們通常把這樣的分佈叫做 parametric distributions or parametric models.

在這篇文章中,我將介紹一些方法,用給定的資料和引數模型,來估算出這些未知的 population parameters:

  • a population mean μ
  • the difference in two population means μ1μ2
  • a population variance σ2
  • the ratio of two population variances σ
    21
    /σ22

Point Estimation VS Interval Estimation

下面是維基百科中關於 Point Estimation 的定義:

In statistics, point estimation involves the use of sample data to calculate a single value which is to serve as a “best guess” or “best estimate” of an unknown population parameter. More formally, it is the application of a point estimator to the data.

下面是維基百科中關於 Interval Estimation 的定義:

In statistics, interval estimation is the use of sample data to calculate an interval of plausible values of an unknown population parameter; this is in contrast to point estimation, which gives a single value.

下面是維基百科中關於 Confidence interval 的定義:

In statistics, a confidence interval is a type of interval estimate (of a population parameter) that is computed from the observed data. The confidence level is the frequency (i.e., the proportion) of possible confidence intervals that contain the true value of their corresponding parameter. In other words, if confidence intervals are constructed using a given confidence level in an infinite number of independent experiments, the proportion of those intervals that contain the true value of the parameter will match the confidence level.

如果你對上面關於 Confidence interval 的定義有些不太理解,沒有關係。當我介紹到如何解釋一個 Confidence interval 的含義時,你會對這個定義理解的更加深刻。實際上,Interval Estimation 包含很多種方法,但是在這篇文章中我只介紹 confidence intervals.

Point Estimation

假設我們想知道中國人每天讀書的平均時間,μ,由於我們不可能去問到每個中國人他們每天拿出多少時間來讀書,因此我們只能隨機抽取出一些國人,得到他們的讀書時間,然後用得到的這些資料去估算整個所有國人的每天平均讀書時間。

我們有2種方法可以做這樣的估算,它們分別是 maximum likelihood estimationmethod of moments. 在這個小節中,我也會介紹一種方法來評估某個點估計是否為一個 “好” 的點估計。

在介紹這個點估計的方法之前,我先來介紹一下 point estimator(點估計量)point estimate(點估計值) 的含義。

point estimator VS point estimate

We denote the n random variables arising from a random sample as subscripted uppercase letters:

X1,X2,,Xn

The corresponding observed values of a specific random sample are then denoted as subscripted lowercase letters:

x1,x2,,xn

比如上面那個讀書時間的例子,我們一共尋問了100箇中國人,那麼我們就得到了100個隨機變數,X1,X2,,X100. 他們每個人給出的讀書時間為 x1,x2,,x100. 你可以把這個過程理解為做了100次實驗。

下面是 point estimator 的定義:

The function of X1,X2,,Xn used to estimate θ is called a point estimator of θ. For example, the function: X¯=1ni=1nXi is a point estimator of the population mean μ; The function: S2=1n1i=1n(XiX¯)2 is a point estimator of the population variance σ2.

下面是 point estimate 的定義:

The function computed from a set of data is an observed point estimate of θ. For example, if xi are the observed grade point averages of a sample of 88 students, then: x¯=188i=188xi=3.12 is a point estimate of μ.

Maximum Likelihood Estimates

有很多方法可以從已知的資料中估算出未知的 population parameters,在這個小節中我會介紹最大似然估計,它屬於點估計,它回答的是這樣一個問題:

For which parameter value does the observed data have the biggest probability?

接下來,我會用最大似然估計分別求解一個離散的和連續的例子,讓大家可以更好的理解它。假設我投擲100次硬幣,出現了55個正面,很明顯這是一個二項分佈,它的引數是 n 和 p,由於 n = 100,現在就只剩下一個未知引數 p 了。那麼現在我們很自然的會問這樣一個問題:哪個 p 值會最大化觀察到的資料的概率。因此我們可以寫成一個關於引數 p 的函式:

P(55heads|p)=(10055)p55(1p)45

上面的函式叫做 likelihood function,它可以解釋成:the probability of 55 heads given p? 毋庸置疑,接下來的任務就是找出 p 值,最大化這個概率,剩下的任務找微積分搞定吧,這裡我就不多說了。通過這個例子,我們可以給出最大似然估計的定義:

Given data the maximum likelihood estimate (MLE) for the parameter p is the value of p that maximizes the likelihood P(data | p). That is, the MLE is the value of p for which the data is most likely.

有時我們會把 likelihood function 取對數,這樣會簡化計算過程。由於 log 函式是單調遞增的,likelihood function 和 取對數之後的 likelihood function 它們最終得到的結果是一致的!

接下來,我再介紹一個關於連續型的例子。假設一種品牌的燎燈泡的壽命服從指數分佈,當然我們不知道這個指數分佈的引數 λ 是多少,我們只能用已知的資料去估算。假設我們一共測試了5個這種品牌的燈泡,它們的壽命分別是2,3,1,3,4. 現在已知了資料和模型,我們就可以用最大似然估計來估算出未知引數 λ 了。

Xi 表示第 i 個燈泡的壽命,xi 為隨機變數 Xi 取到的值。那麼每個 Xi 有 PDF:fXi(xi)=λeλxi. 我們也假設每個燈泡的壽命是相互獨立的,因此可以把 joint PDF 寫成:

f(x1,x2,x3,x4,x5|λ)=(λeλx1)(λeλ

相關推薦

機器學習引數估計

Probability Theory focus on computing the probability of data arising from a parametric model with known parameters. Statistical In

系統學習機器學習引數方法(三)

1判別模型與生成模型 上篇報告中提到的迴歸模型是判別模型,也就是根據特徵值來求結果的概率。形式化表示為,在引數確定的情況下,求解條件概率。通俗的解釋為在給定特徵後預測結果出現的概率。 比如說要確定一隻羊是山羊還是綿羊,用判別模型的方法是先從歷史資料中學習到模型,然後通過提

機器學習模型選擇(K折交叉驗證,超引數的選擇)

來源: https://www.cnblogs.com/jerrylead/archive/2011/03/27/1996799.html   對於解決同一個問題,如怎麼選擇模型去擬合線性迴歸中只有一個特徵時房價預測問題,如可能有不同的模型去解決,如: 1、d = 1,h(

吳恩達機器學習聚類演算法的引數選擇以及優化

對於K(k<樣本量的)均值聚類,一般引數的自定義主要有兩個,一個是聚類中心初始位置的選擇,二是K值的選擇 優化目標:每個樣本點到該點聚類中心的平方的累加 解決聚類中心的初始化問題: 隨機挑選樣本點作為聚類中心,這個過程重複50-1000次,選出J值最低的(通常K值為2-10的時候

機器學習模型評估與引數調優

一、流水線工作流        在利用訓練資料對模型進行擬合時已經得到一些引數,使用流水線可以避免在將模型用於新資料時重新設定這些引數。利用sklearn中的Pipline類,使得我們可以擬合出包含任意多個處理步驟的模型,並將模型用於新資料的預測。 1. # Title

機器學習線性迴歸極大似然估計

leboop文章,禁止轉載! 請閱讀《機器學習之矩陣微積分及其性質》和《機器學習之線性迴歸公式推導》。首先我們還是使用如下的資料:   feature_1 feature_2   feature_n

機器學習grid_search--引數優化

機器學習之grid_search–引數優化 # -*- coding: utf-8 -*- """ Created on Mon Dec 10 14:37:14 2018 @author: muli """ from sklearn.datasets import

機器學習--最大似然估計

1.最大似然估計概念: 最大似然估計,只是一種概率論在統計學的應用,它是引數估計的方法之一。說的是已知某個隨機樣本滿足某種概率分佈,但是其中具體的引數不清楚,引數估計就是通過若干次試驗,觀察其結果,利用結果推出引數的大概值。最大似然估計是建立在這樣的思想上:已知某個引數能

系統學習機器學習引數方法(二)--基於密度

轉自:https://www.cnblogs.com/pinard/p/6208966.html 基於密度聚類 DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪聲的基於密度的聚類方法)是一種很典型的密

Spark機器學習模型選擇和超引數調整

模型選擇(超引數調諧)ML中的一個重要任務是模型選擇,或使用資料找到給定任務的最佳模型或引數。 這也叫調音。 可以針對個體估算器(如Logistic迴歸)或包括多個演算法,特徵化和其他步驟的整個管道完成調整。 使用者可以一次調整整個流水線,而不是單獨調整管道中的每個元素。

機器學習分類問題實戰(基於UCI Bank Marketing Dataset)

表示 般的 機構 文件 cnblogs opened csv文件 mas htm 導讀: 分類問題是機器學習應用中的常見問題,而二分類問題是其中的典型,例如垃圾郵件的識別。本文基於UCI機器學習數據庫中的銀行營銷數據集,從對數據集進行探索,數據預處理和特征工程,到學習

機器學習良/惡性乳腺癌腫瘤預測

nan n) gin sample 通過 回歸 ipy read 數據集 知識點:   邏輯斯蒂回歸分類器   訓練數據集:https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-w

機器學習 SVM VC維度、樣本數目與經驗風險最小化的關系

能力 pan dsm 過擬合 引入 div 不但 機器 con VC維在有限的訓練樣本情況下,當樣本數 n 固定時。此時學習機器的 VC 維越高學習機器的復雜性越高。VC 維反映了函數集的學習能力,VC 維越大則學習機器越復雜(容量越大)。

機器學習SVM初解與淺析(一):最大距離

機器學習 svm 最大距離 2 / ||w|| 這段時間在看周誌華大佬的《機器學習》,在看書的過程中,有時候會搜搜其他人寫的文章,對比來講,周教授講的內容還是比較深刻的,但是前幾天看到SVM這一章的時候,感覺甚是晦澀啊,第一感覺就是比較抽象,特別是對於像本人這種I

機器學習SVM初解與淺析(一):

機器學習 svm 最大距離 2 / ||w||sdsshngshan‘gccha 這段時間在看周誌華大佬的《機器學習》,在看書的過程中,有時候會搜搜其他人寫的文章,對比來講,周教授講的內容還是比較深刻的,但是前幾天看到SVM這一章的時候,感覺甚是晦澀啊,第一感覺就

機器學習PCA主成分分析

ping app 最大 們的 理解 style 避免 -m size 前言 以下內容是個人學習之後的感悟,轉載請註明出處~ 簡介   在用統計分析方法研究多變量的課題時,變量個數太多就會增加課題的復雜性。人們自然希望變量個數較少而得到的 信息較

機器學習大數據集

曲線 叠代 ... 問題 alt 流數據 疊加 沒有 cost 前言 以下內容是個人學習之後的感悟,轉載請註明出處~ 簡介   大數據時代已經來臨,它將在眾多領域掀起變革的巨浪。機器學習對於大數據集的處理也變得越來越重要。大數據 集務必會帶來恐

機器學習梯度下降法

梯度 學習 模型 最快 參數 nbsp 函數 bsp 每一個 在吳恩達的機器學習課程中,講了一個模型,如何求得一個參數令錯誤函數值的最小,這裏運用梯度下降法來求得參數。 首先任意選取一個θ 令這個θ變化,怎麽變化呢,怎麽讓函數值變化的快,變化的小怎麽變化,那麽函數值怎麽才能

機器學習numpy庫中常用的函數介紹(一)

做的 string idt 維度 數據 round float 數值 array 1. mat() mat()與array的區別: mat是矩陣,數據必須是2維的,是array的子集,包含array的所有特性,所做的運算都是針對矩陣來進行的。 array是數組,數據可以是多

機器學習學習路線

機器學習機器學習機器學習樸素貝葉斯(NBC) 決策樹K-近鄰算法回歸K-均值聚類算法Apriori算法FP-growth算法主成分分析(PCA)奇異值分析(SVD)支持向量機logistic回歸python 實現明星專家系統http://9399369.blog.51cto.com/9389369/d-22/