【模式識別】模式識別的概述(一)
本節主要內容:
- 模式和模式識別的概念
- 模式識別的發展簡史和應用
- 模式識別的主要方法
- 模式識別的系統和例項
- 幾個相關的數學概念
1、模式和模式識別的概念
什麼是模式(Pattern)?
廣義地說,存在於時間和空間中可觀察的事物,如果我們可以區別他們是否相同或是否相似,都可以稱之為模式。
模式所指的不是事物本身,而是從事物獲得的資訊,因此,模式往往表現為具有時間和空間分佈的資訊。
模式的直觀特性:
——可觀察性
——可區分性
——相似性
模式識別的概念
模式識別—直觀,無所不在,“人以類聚,物以群分”
——周圍物體的認知:桌子、椅子
——人的識別:張三、李四
——聲音的辨別:汽車。火車、狗叫、人語
——氣味的分辨:炸帶魚、紅燒肉
人和動物的識別能力是極為平常的,但對計算機來說卻是非常困難的。
模式識別的研究
目的:利用計算機對物理物件進行分類,在錯誤概率最小的條件下,使識別的結果儘量與客觀物體相符合。
Y=F(X)
——X的定義域去取自特徵集
——Y的值域為類別的標號集
——F是模式識別的判別方法
2、模式識別的應用(舉例)
工程
——產品缺陷檢測、特徵識別、語音識別、自動導航系統、汙染分析
軍事
——航空攝像分析、雷達和聲納訊號檢測和分類、自動目標識別
安全
——指紋識別、人臉識別、監視和報警系統
3、模式識別的主要方法
模式識別的方法
模式識別系統的目標:在特徵空間和解釋空間之間找到一種對映關係,這種對映也稱之為假說。
——特徵空間:從模式得到的對分類有用的度量、屬性或基元構成的空間。
——解釋空間:將c個類別表示為,i=1,2,...,c
其中,為所屬類別的集合,稱為解釋空間。
假說的兩種獲得方法
監督學習、概念驅動或歸納假說:在特徵空間中找到一個與解釋空間的結構相對應的假說。在給定模式下假定一個解決方案,任何在訓練集中接近目標的假說也都必須在“未知的樣本上得到近似的結果。
——依靠已知所屬類別的訓練樣本集,按它們特徵向量的分佈來確定假說(通常為一個判別函式),在判別函式確定之後能用它對未知的模式進行分類;
——對分類的模式要有足夠的先驗知識。通常需要採集足夠數量的具有典型性的樣本進行訓練。
非監督學習。資料驅動或演繹假說:在解釋空間中找到一個與特徵空間的結構相對應的假說。這種方法試圖找到一種只以特徵空間中的相似關係為基礎的有效假說。
——在沒有先驗知識的情況下,通常採用聚類分析方法,基於“物以類聚”的觀點,用數學方法分析各特徵向量之間的距離及分散情況;
——如果特徵向量集聚集若干個群,可按群間距離遠近把它們劃分成類;
——這種按各類之間的親疏程度的劃分,若事先能知道應劃分成幾類,則可獲得更好的分類結果。
模式分類的主要方法
- 資料聚類
- 統計分類
- 結構模式識別
- 神經網路
資料聚類
- 目標:用某種相似性度量的方法將原始資料組織成有意義的和有用的各種資料集。
- 是一種非監督學習的方法,解決方案是資料驅動的。
統計分類
- 基於概率統計模型得到各類別的特徵向量的分佈,以取得分類的方法。
- 特徵向量分佈的獲得是基於一個類別已知的訓練樣本集。
- 是一種監督分類的方法,分類器是概念驅動的
結構模式識別
- 該方法通過考慮識別物件的各部分之間的聯絡來達到識別分類的目的。
- 識別採用結構匹配的形式,通過計算一個匹配程度值(matching score)來評估一個未知的物件或未知物件某些部分與某種典型模式的關係如何。
- 當成功地制定出了一組可以描述物件部分之間關係的規則後,可以應用一種特殊的結構模式識別方法—句法模式識別,來檢查一個模式基元的序列是否遵守某種規則,即句法規則或語法。
神經網路
- 神經網路是受人腦組織的生理學啟發而創立的。
- 由一系列互相聯絡的、相同的單元(神經元)組成。相互間的聯絡可以在不同的神經元之間傳遞增強或抑制訊號。
- 增強或抑制是通過調整神經元相互間聯絡的權重係數來(weight)實現。
- 神經網路可以實現監督和非監督學習條件下的分類。
4、模式識別系統和例項
模式識別系統
模式識別系統的基本構成
模式識別系統組成單元
- 資料獲取:用計算機可以運算的符號來表示所研究的對像
——一維波形:腦電圖、心電圖、季節震動波形等
——%E�%Q9�E7��參量和邏輯值:體溫、化驗資料、參量正常與否的描述
- 預處理單元:去噪聲,提取有用資訊,並對輸入測量儀器或其它因素所造成的退化現象進行復原。
- 特徵提取和選擇:對原始資料進行變換,得到最能反映分類本質的特徵
——特徵空間:分類識別賴以進行的空間
——模式表示:維數較高的測量空間“—>維數較低的特徵空間
- 分類決策:在特徵空間中用模式識別方法把被識別物件歸為某一類別
模式識別過程例項
- 在傳送帶上用光學感測器件對魚按品種分類
識別過程
- 資料獲取:架設一個攝像機,採集一些樣本影象,獲取樣本資料
- 預處理:去噪聲,用一個分割操作把魚和魚之間以及魚和背景之間分開
- 特徵提取和選擇:對單個魚的資訊進行特徵選擇,從而通過測量某些特徵來減少資訊量——長度、亮度、寬度、魚翅的數量和形狀、嘴的位置,等等
- 分類決策:把特徵送入決策分類器
模式分類器的獲取和評測過程
- 資料採集
- 特徵選取
- 模型選擇
- 訓練和測試
- 計算結果和複雜度分析,反饋
訓練和測試
- 訓練集:是一個已知樣本集,在監督學習方法中,用它來開發出模式分類器。
- 測試集:在設計識別和分類系統時沒有用過的獨立樣本集。
- 系統評價原則:為了更好地對模式識別系統性能進行評價,必須使用一組獨立於訓練集的測試集對系統進行測試。
5、相關數學概念分佈
隨機向量及其分佈
——隨機向量
- 如果一個物件的特徵觀察值為{x1,x2,...,xn},它可構成一個n維的特徵向量值X,即
- 一個特徵可以看作n維空間中的向量或點,此空間稱為模式的特徵空間Rn。
- 在模式識別過程中,要對許多具體物件進行測量,以獲得許多次觀測值。
- 每次觀測值不一定相同,所以對許多物件而言,各個特徵分量都是隨機變數;即許多物件的特徵向量在n維空間中呈隨機性分佈,成為隨機向量。
——隨機向量的引數
- 數學期望(均值)和方差
- 協方差矩陣
- [例:求隨機變數的數學期望和協方差矩陣]
- 正態分佈