孫仕亮模式識別與機器學習1008第二堂課
阿新 • • 發佈:2018-12-14
筆記
知識點整理
- 交叉驗證(Cross Validation):是用來驗證分類器的效能一種統計分析方法,基本思想是把在某種意義下將原始資料(dataset)進行分組,一部分做為訓練集(training set),另一部分做為驗證集(validation set),首先用訓練集對分類器進行訓練,在利用驗證集來測試訓練得到的模型(model),以此來做為評價分類器的效能指標。
- 留一法(leave one out):(1)、將全部訓練集 S分成 k個不相交的子集,假設 S中的訓練樣例個數為 m,那麼每一個子 集有個訓練樣例,,相應的子集稱作{}。(2)、每次從分好的子集中裡面,拿出一個作為測試集,其它k-1個作為訓練集。(3)、根據訓練訓練出模型或者假設函式。(4)、把這個模型放到測試集上,得到分類率。(5)、計算k次求得的分類率的平均值,作為該模型或者假設函式的真實分類率。 這個方法充分利用了所有樣本。但計算比較繁瑣,需要訓練k次,測試k次。留一法就是每次只留下一個樣本做測試集,其它樣本做訓練集,如果有k個樣本,則需要訓練k次,測試k次。
- 決策論:如何做決策(1)最小化錯誤率。(不考慮代價)(2)最小化期望損失。
- 正態分佈:公式 中心極限定理:設隨機變數序列相互獨立,並且具有相同的期望和方差,即,令,,則,由此,我們可以根據中心極限定理來近似得到正態分佈。 最大熵模型:https://blog.csdn.net/szq34_2008/article/details/79186664 我jio得還不錯~