模式識別(Pattern Recognition)學習筆記(一)--何為模式識別
一、什麼是模式和模式識別?
當我們人眼看到一幅畫時,我們能夠很清晰的知道其中哪裡是動物,哪裡是山,水,人等等,但是人眼又是如何識別和分辨的呢,其實很簡單,人類也是在先驗知識和對以往多個此類事物的具體例項進行觀察的基礎上得到的對此類事物整體性質和特點的認識的,並不是人類原本就有對這類事物的記憶,就好比嬰孩時期的我們,並不知道什麼是狗,什麼是帥哥,什麼是美女,但是隨著我們的慢慢長大,我們觀察的多了,見的多了,再加上過來人的經驗指導,我們就知道的多了,也懂得的多了,就覺得自己很牛逼了。
其實,每一種外界的事物都是一種模式,人類平均每天都在進行著很多很多的各種各樣的模式識別,人們對外界事物的識別,很大部分是把事物進行分類來完成的;那麼如何讓機器活計算機做到人眼這麼牛逼呢,哪怕是達到人眼識別的10%也好啊,哈哈,答案顯而易見了,模仿人眼的分類啊。
《說文》中記載,模,法也;式,法也。可以看出,模和式的意思是一樣的,簡單來說就是一種規律;而在英文中,模式pattern這個詞的意思有兩層,第一層是代表事物(個體或一組事物)的模板或原型;第二層是表徵事物特點的特徵或性狀的組合。在模式識別學科中,模式可以看做是物件的組成成分或影響因素間存在的規律性關係,或者是因素間存在的確定性或隨機性規律的物件、過程或事件的集合。因此,也有人把模式成為模式類,模式識別也被稱作為模式分類(Pattern Classification)。
《說文》中,識,知也;別,分解也;識別就是將事物物件進行分門別類,因此模式識別就是對模式的區分和認識,是事物樣本到類別的對映。
模式識別作為一門交叉學科,其研究的重點不是人類進行模式識別的神經生理學或生物學原理,而是研究如何通過一系列數學方法讓機器來實現類人的識別能力。這是我們的長期奮鬥目標,也是有著極大研究意義的學科,希望它能夠在各專家和學者的不懈努力下實現更大的突破。
這裡,要記住一些模式識別的專業術語:
樣本(sample),要研究物件的一個個體,注意與統計學中的不同,類似於統計學中的例項(instance);
樣本集(sample set),樣本的集合,統計學中的樣本就是指樣本集;
類或類別(class),在所有樣本上定義的一個子集,處於同一類的樣本,我們說她們具有相同的模式;習慣性地,我們用w1,w2等來表示類別,兩類問題中也會用{0,1}或{-1,1};
特徵(feature),表徵樣本的特點或性狀的量化集合,通常是數值表示(對於非數值形式,要轉化為數值特徵),也被稱作為屬性,如果是多個特徵,就組成了特徵向量(feature vector)。樣本的特徵構成了樣本特徵空間,空間的維數就是特徵的個數,每一個樣本就是特徵空間中的一個點。
已知樣本(known sample),已經事先知道類別的樣本;
未知樣本(unknown sample),類別標籤未知但特徵已知的樣本;
二、模式識別的主要方法
解決模式識別的方法主要有:模板匹配法,ANN法,基於知識的方法和基於資料的方法;
基於知識的方法就是專家系統,句法識別就屬於基於知識的,但是句法識別不常用;基於資料的方法也就是基於統計的方法,即依據統計原理來構造分類器,來對未知樣本進行預測,這種學習過程是機器學習中研究最多的一個方向,也是模式識別採用的最主要方法。ANN也就是大名鼎鼎的神經網路,哈哈。
模式識別的研究範疇,存在兩個極端,要麼分類和特徵之間的關係完全確定,要麼完全隨機。
三、監督的和無監督的
簡單來說,類別已定的就叫做有監督分類,反之就是無監督分類;前者因為我們有已知劃分類別的訓練樣本來作為學習過程的“導師”,所以很多時候,有監督和無監督,又叫做有導師學習和無導師學習;
後者,在不知道要劃分的是什麼類別時,我們要做的工作是聚類(clustering),根據樣本特徵將樣本聚成多少類,使屬於同一類的樣本在一定意義上是相似的,不同類之間的樣本則有較大差異,通過聚類得到的類別也稱作為聚類,但是通常在聚類中存在一個尺度問題,當設定的尺度不一樣,得到的聚類也不一樣。所以在很多無監督識別問題中,分類結果並不一定是唯一的,因此在沒有特別指定的目的情況下,很難說哪種分類方案更合理。另外,用一種方法在一個樣本集上完成了聚類分析,得到了若干個聚類,這種聚類結果只是數學上的一種劃分,對應用的實際問題是否有意義,還需要結合更多更專業的知識來進行解釋。
四、常見的模式識別系統
主要有:語音識別,說話人識別,OCR,複雜影象中特定目標的識別,根據地震勘探資料對地下儲層性質的識別,利用基因表達資料進行癌症的分類等等;
五、模式識別系統的構成
一個模式識別系統通常包括典型的四個部分(如下圖):對原始資料的獲取和預處理,特徵提取與特徵選擇,分來或聚類,後處理;以上四個部分,無論是監督的還是無監督的都共有的,可以說是整個系統的核心所在,也是模式識別學科的主要研究內容。
未完待續。。。以此激勵自己不要偷懶辣。。