模式識別快速入門——基本概念
本文將簡潔地介紹模式識別的相關概念和一些問題。
模式識別的歷史:
大家可以自己百度一下。此處即不贅述。
模式識別的概念:
什麼是模式:廣義的說,存在於時間和空間中可以被觀察的食物,如果我們可以區別它們是否相同、相似,都可以被成為模式。模式不是物體本身,更強調物體的特徵資訊。而實際中,模式識別可能並不對應實際的時間和空間,可以適當做更廣義、更抽象的理解。
特徵是決定相似性與分類的關鍵,當分類的目的決定後,如何找到合適的特徵成為認知與識別的核心問題。對於一個實際的模式識別系統,只有在特徵確定以後,才能對分類器的引數進行計算,實際中兩者常常相互交叉進行。
模式識別的作用和目的:將某一具體事物正確地歸入某一類別。
模式識別系統:
有兩種基本的模式識別方法:統計模式識別方法、結構(句法)模式識別方法。相應的模式識別系統都由兩個過程實現,即設計和實現。設計:用一定數量的樣本(訓練集)進行分類器的設計;實現:用所設計的分類器對待識別的樣本進行分類決策。本blog主要討論基於統計方法的模式識別系統。
一般流程是:資訊獲取→預處理→特徵提取和選擇→設計→實現
預處理的目的是去除噪聲,包括測量儀器、感測器帶來的機器誤差、退化現象等,加強有用的資訊。特徵提取往往是從測量空間中表示的模式提取中具有代表性的、能夠甄別不同類的特徵,一般會組成一個多維向量的表示形式。分類決策就是在特徵空間中用統計方法把被識別物件歸為某一個類別。
一些基本問題:
1、模式類的緊緻性
按我的理解,即是否可以用有限個、符合我們期望的超平面將模式分類。
2、相似、等價
滿足對稱和自返關係——相似關係;
同時滿足對稱、自返和傳遞關係——等價關係。
目前,廣泛應用的相似性度量是在空間中定義的某種距離。一輸入樣本集合Χ,用D維空間中的一個點表示某個樣本,兩個樣本xk和xj的相似性度量δ(xk,xj)滿足:
(1)相似性度量應為非負值,即δ(xk,xj)≥0;
(2)樣本本身之間相似性度量應為最大;
(3)相似性度量應滿足對稱性。