模式識別/機器學習百題(含大部分答案)
一、概論
1、簡述模式的概念和它的直觀特性,解釋什麼是模式識別,同時繪出模式識別系統的組成框圖,並說明各部分的主要功能特性。
對於存在於時間和空間中,可觀察的物體,如果我們可以區分它們是否相同或相似,都可以稱之為“模式”(或“模式類”)。
模式所指的不是事物本身,而是從事物中獲得的資訊。因此,模式常常表現為具有時間和空間分佈的資訊。
模式的直觀特性包括:可觀察性,可區分性,相似性。
模式識別就是對模式的區分和認識,把物件根據其特徵歸到若干類別中的適當一類。
模式識別系統的組成框圖如下圖所示。一個模式識別系統通常包括:原始資料獲取與預處理、特徵提取與選擇、分類或聚類、後處理四個步驟。
監督模式識別過程可歸納為五個基本步驟:分析問題、原始特徵獲取、特徵提取與選擇、分類器設計、分類決策。
非監督模式識別過程可歸納為五個基本步驟:分析問題、原始特徵獲取、特徵提取與選擇、聚類分析、結果解釋。
每部分說明略。
2、簡述模式識別系統中模式處理的完整過程,和一個分類器的設計過程。
模式處理的完整過程可歸納為:資料/資訊獲取與預處理、特徵提取與選擇、分類或聚類、後處理四個步驟。
在統計決策中,分類器設計的過程包括:樣本(類條件)概率密度形式假定、引數或非引數密度估計、確定準則函式、確定決策規則。
在基於樣本直接設計的分類器中,分類器設計過程包括:確定判別函式型別(線性、二次、決策樹、神經網路等)、確定學習目標(準則函式)、確定優化演算法,在訓練資料上學習分類器、在測試資料上評價分類器、解釋分析。
3、給出機器學習問題的形式化表示,並解釋學習機器的推廣能力。
(1)機器學習的形式化表示
已知變數
機器學習就是根據
其中
簡而言之,機器學習,就是在一組設定的函式集中尋找使期望風險最小的最優函式。
(2)學習機器的推廣能力
模式識別是一種基於資料的機器學習,學習的目的不僅是要對訓練樣本正確分類,而是要能夠對所有可能樣本都正確分類,這種能力叫做推廣能力。
4、區別於基於模型的模式識別方法(統計決策原理),基於資料的模式識別方法直接從樣本設計分類器。從樣本直接設計分類器,需要確定哪些基本要素?
需要確定三個基本要素:① 判別函式型別(函式集),② 學習目標(準則函式),③ 優化演算法。
5、給定一組有類別標號(M 類)的樣本 x1,⋯,xN(xi∈Rd) 。現有兩種特徵提取方法 F1 和 F2 ,和兩種分類方法 C1 和 C2 。請設計一個實驗方案,分別比較特徵提取方法和分類方法的效能。寫出詳細實驗過程。
採用 5-fold 交叉驗證來評估
二、統計決策方法
1、簡述多分類問題的最小錯誤率貝葉斯決策過程,並給出相應的最小分類錯誤率。
2、闡述最小風險貝葉斯決策原理和決策步驟,說明在什麼情況下最小風險決策等價於最小錯誤率決策,並證明之。
(1)決策原理
最小風險貝葉斯決策的目標是,針對決策規則
由於
若
其中
(2)決策步驟
① 計算後驗概率:
② 利用決策表,計算條件風險: