1. 程式人生 > >孫仕亮模式識別與機器學習1008第二堂課

孫仕亮模式識別與機器學習1008第二堂課

筆記

在這裡插入圖片描述

知識點整理

  1. 交叉驗證(Cross Validation):是用來驗證分類器的效能一種統計分析方法,基本思想是把在某種意義下將原始資料(dataset)進行分組,一部分做為訓練集(training set),另一部分做為驗證集(validation set),首先用訓練集對分類器進行訓練,在利用驗證集來測試訓練得到的模型(model),以此來做為評價分類器的效能指標。
  2. 留一法(leave one out):(1)、將全部訓練集 S分成 k個不相交的子集,假設 S中的訓練樣例個數為 m,那麼每一個子 集有mk\frac{m}{k}個訓練樣例,,相應的子集稱作{s1,s2,.....
    .sks_1, s_2, ......s_k
    }。(2)、每次從分好的子集中裡面,拿出一個作為測試集,其它k-1個作為訓練集。(3)、根據訓練訓練出模型或者假設函式。(4)、把這個模型放到測試集上,得到分類率。(5)、計算k次求得的分類率的平均值,作為該模型或者假設函式的真實分類率。 這個方法充分利用了所有樣本。但計算比較繁瑣,需要訓練k次,測試k次。留一法就是每次只留下一個樣本做測試集,其它樣本做訓練集,如果有k個樣本,則需要訓練k次,測試k次。
  3. 決策論:如何做決策(1)最小化錯誤率。(不考慮代價)(2)最小化期望損失。
  4. 正態分佈:公式f(x)=1(2π)σ
    exp((xμ)22σ2)f(x)=\frac{1}{\sqrt{(2\pi)}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})
    中心極限定理:設隨機變數序列{Xi}{\{X_i\}}相互獨立,並且具有相同的期望和方差,即E(Xi)=μ,D(Xi)=σ2E(X_i)=\mu,D(X_i)=\sigma^2,令Yn=X1+...+XnY_n=X_1+...+X_nZn=YnE(Yn)D(Yn)=YnnμnμZ_n=\frac{Y_n-E(Y_n)}{\sqrt{D(Y_n)}}=\frac{Y_n-n\mu}{n\mu}
    ,則ZnN(0,1)Z_n\rightarrow{N(0,1)},由此,我們可以根據中心極限定理來近似得到正態分佈。 最大熵模型:https://blog.csdn.net/szq34_2008/article/details/79186664 我jio得還不錯~