第十一週學習筆記
第十一週學習筆記
1.閱讀《模式識別》張學工
第四章,線性分類器
主要內容
- 感知器
- 最小平方誤差判別
- 最優分類超平面與線性支援向量機
- 多類線性分類器
值得注意的地方
1.感知器的損失函式
與logistic迴歸和線性迴歸等不同,感知器的定義了增廣的規範化樣本 , 作為解向量的充要條件是
對所有 成立,因此,損失函式就是
注意到感知器沒有概率模型,因此沒有使用最大似然估計,另外也沒有使用均方差。
2.非方陣矩陣的偽逆
非方陣矩陣 的偽逆為
3.大間隔的意義
大間隔等價於最小化更小的VC維上界,VC維部分反應了模型的複雜程度,相同樣本的情況下,更小的VC維可以使得模型具有更好的推廣能力,這就是最大間隔的意義
4.軟間隔支援向量機中, 值的意義
,正確分類的非邊界樣本
,邊界支援向量
,錯分支援向量
5.多分類器:一對多,一對一
一對多,訓練器少,但會面臨樣本不均衡的問題,且會有模糊的結果,因為c-1個平面並不一定恰好分得c個區域,分類器之間得到的輸出值往往不具有可比性。
一對一,不會出現不平衡的問題,決策歧義比一對多少,但需要
個分類器
第五章,非線性分類器
主要內容
- 分段線性判別函式,將多峰大類分成若干子類,將新樣本劃分到這些子類中。
- 二次判別函式,如馬氏距離
- 多層感知器神經網路
- 支援向量機,支援向量迴歸
- 核函式機器
值得注意的地方
1.分段線性判別函式與區域性加權迴歸
實際上區域性加權迴歸就是一個分段線性判別函式,且如果新的樣本稠密的化,決策平面可以十分光滑
2.萬能近似定理
萬能近似定理只是存在性定理,說明了適當結構的三層前饋神經網路可以以任意精度逼近一個連續有界的函式
3.神經網路的編碼和預處理
- 二分類的輸出編碼為一個輸出單元,0or1
- 多分類的輸出編碼為one-hot向量,不建議使用二進位制編碼,節省節點但是會導致訓練目標更加複雜
- 特徵需要進行標準化,防止數值問題和尺度不同導致的差異
4.隱層節點的選擇
- 試探法,經驗建議小於輸入維數,樣本較少時採用少的隱層節點,有人建議輸入節點的一半左右。
- 先驗知識,精心設計
- 正則化剔除權值小的節點
5.利用特徵變換提煉資料的非線性特徵
特徵變換將面臨維數災難問題,而SVM的核方法採用迂迴策略,不直接計算特徵變換,很好地解決了這一問題。
6.常用核函式
- 多項式核
- 徑向基核
- SIgmoid核函式
對於採用Sigmoid核函式的支援向量機,實現的就是一個三層神經網路,隱層節點就是支援向量的個數,所以支援向量機等價地實現了對神經網路節點數目的自動選擇
核函式的選擇原則:線性核->寬度較大的RBF核->寬度較小的RBF核
核函式的好處: 避免了特徵的直接計算,根據核函式的相似性度量的解釋,可以避免對一些非數值特徵的無意義編碼,而直接定義其之間的相似性即可。另外支援向量機對於核函式具有一定的不敏感性。
第六章,其他分類方法
主要內容
- 近鄰法
- k-近鄰法,用k個最近樣本的類別對待預測樣本進行投票
- 分支定界演算法,減少k-近鄰法的計算量
- 剪輯近鄰法,兩類樣本重疊的部分的分類面十分複雜,因此可以去掉重疊的部分進行分類
- 壓縮近鄰法,原理決策邊界的樣本對邊界的構成無影響,可以剔除
- 決策樹與隨機森林
- 決策樹特徵選擇:ID3方法,C4.5方法,CART方法
- 先剪枝,後剪枝
- 隨機森林,bootstrap
- logistic迴歸
- Boosting方法,AdaBoost,整合學習方法,對前一個分類器的錯分樣本更大的權值來訓練後一個分類器。
值得注意的地方
1.先減枝,後減枝
先剪枝沒有全域性觀念,且不會回溯,缺乏對後效性的考慮,可能導致樹的生長提前終止;後剪枝的方法在實踐中更為成功,利用了所有的樣本資訊構建決策樹,但計算代價更大。
第七章,特徵選擇
主要內容
- 特徵的評價準則,類別可分性準測
- 基於類內間距離的可分性判據
- 基於概率分佈的可分性判據
- 基於熵的可分性判據
- 統計檢驗作為可分性判據
- 特徵選擇的最優演算法,分支定界法
- 特徵選擇的次優演算法、
- 單獨最優特徵組合
- 順序前進法,入選後無法剔除
- 順序後退法,剔除後無法選入
- 增l減r法
- 特徵選擇的遺傳演算法
- 以分類效能為準則的特徵選擇方法
第八章,特徵提取
主要內容
- 基於類別可分性判據的特徵提取
- 主成分分析法
- Karhunen-Loeve變換
- 高維資料的低維表示
- 多維尺度法,已知兩兩資料間的距離,求它們在二維平面上的分佈
- 非線性變換方法
- 核主成分分析
- IsoMap和LLE方法,區域性使用歐式空間近似
值得注意的地方
1.特徵選擇和特徵提取的區別
特徵選擇是在可以得到的所有特徵中選擇合適的特徵建模,而這裡的特徵提取是通過數學變換得到一組新的特徵
2.KL變換
可以對總體進行KL變換,也可以單獨對各類進行KL變換。
3.模式識別問題的五個階段
- 問題的提出和定義
- 資料獲取和預處理
- 特徵提取和選擇
- 分類器設計和效能評估
- 分類及結果解釋
第九章,非監督模式識別
主要內容
- 基於模型的方法
- 混合模型的估計
- 動態聚類演算法,k-means,ISODATA(改進的k-means,自動合併,分裂)
- 模糊聚類方法
- 分級聚類方法(系統聚類)
- 自組織對映神經網路
值得注意的地方
1.可識別性問題
如果可以從混合概率密度中恢復所有的引數,則是可識別的。
2.用均值來代表一類樣本的侷限性
用均值來作為一類樣本的代表點,只有當類內樣本的分佈為超球狀或接近超球狀(各維特徵上的樣本方差接近)時,才能取得好的效果,這也是引入馬氏距離的動機。
第十章,模式識別系統的評價
主要內容
- 監督模式識別方法的錯誤率估計
- 有限樣本下錯誤率的區間估計問題
- 特徵提取與選擇對分類器效能估計的影響
- 從分類的顯著性推斷特徵與類別的關係
- 非監督模式識別系統性能的評價
值得注意的地方
1.驗證集的必要性
始終記住我們需要一個泛化誤差小的模型,我們完全可以使用測試集上的誤差來指導模型和引數的選擇,但是,由於最終選好模型後,我們仍然使用測試集估計泛化誤差,這種估計就會成為一種樂觀的估計,因為在人為調整引數和模型使得誤差小的過程中,我們就相當於在對測試集進行超引數的擬合,最終再使用測試集來判斷超引數的是不對的,所以需要用驗證集擬合超引數,測試集進行最後的誤差估計。
2.非監督評價的誤區
當人們用聚類分析作為一種手段來探索未知的科學問題時,主觀的判斷有時會在無意中加強研究者本來的猜測,或者加強人們之前已經看到或猜想過的規律,而忽略未事先想象到或與一千認識不符的現象,從而導致錯過發現新規律和新模式的機會。