1. 程式人生 > >模式識別/機器學習百題(含大部分答案)

模式識別/機器學習百題(含大部分答案)

一、概論

1、簡述模式的概念和它的直觀特性,解釋什麼是模式識別,同時繪出模式識別系統的組成框圖,並說明各部分的主要功能特性。

對於存在於時間和空間中,可觀察的物體,如果我們可以區分它們是否相同或相似,都可以稱之為“模式”(或“模式類”)。

模式所指的不是事物本身,而是從事物中獲得的資訊。因此,模式常常表現為具有時間和空間分佈的資訊。

模式的直觀特性包括:可觀察性,可區分性,相似性。

模式識別就是對模式的區分和認識,把物件根據其特徵歸到若干類別中的適當一類。

模式識別系統的組成框圖如下圖所示。一個模式識別系統通常包括:原始資料獲取與預處理、特徵提取與選擇、分類或聚類、後處理四個步驟。

這裡寫圖片描述

監督模式識別過程可歸納為五個基本步驟:分析問題、原始特徵獲取、特徵提取與選擇、分類器設計、分類決策。

非監督模式識別過程可歸納為五個基本步驟:分析問題、原始特徵獲取、特徵提取與選擇、聚類分析、結果解釋。

每部分說明略。

2、簡述模式識別系統中模式處理的完整過程,和一個分類器的設計過程。

模式處理的完整過程可歸納為:資料/資訊獲取與預處理、特徵提取與選擇、分類或聚類、後處理四個步驟。

在統計決策中,分類器設計的過程包括:樣本(類條件)概率密度形式假定、引數或非引數密度估計、確定準則函式、確定決策規則。

在基於樣本直接設計的分類器中,分類器設計過程包括:確定判別函式型別(線性、二次、決策樹、神經網路等)、確定學習目標(準則函式)、確定優化演算法,在訓練資料上學習分類器、在測試資料上評價分類器、解釋分析。

3、給出機器學習問題的形式化表示,並解釋學習機器的推廣能力。

(1)機器學習的形式化表示

已知變數 y 與輸入 x 之間存在一定的未知依賴關係,即存在一個未知的對映 F(x,y)

機器學習就是根據 n 個獨立同分布的觀測樣本 (x1,y1),,(xn,yn),在一組函式 f(x,ω) 中求一個最優的函式,使預測的期望風險 R(ω)=L(y,f(x,ω))dF(x,y) 最小。

其中 F(x,y) 表示所有可能出現的輸入 x 與輸出 y 的聯合概率模型。

f(x,ω) 被稱為預測函式集,ωΩ 為函式的廣義引數,故 f(x,ω) 可以表示任意函式集。

L(y,f(x,ω)

) 是使用 f(x,ω)y 進行預測而造成的損失。

簡而言之,機器學習,就是在一組設定的函式集中尋找使期望風險最小的最優函式。

(2)學習機器的推廣能力

模式識別是一種基於資料的機器學習,學習的目的不僅是要對訓練樣本正確分類,而是要能夠對所有可能樣本都正確分類,這種能力叫做推廣能力。

4、區別於基於模型的模式識別方法(統計決策原理),基於資料的模式識別方法直接從樣本設計分類器。從樣本直接設計分類器,需要確定哪些基本要素?

需要確定三個基本要素:① 判別函式型別(函式集),② 學習目標(準則函式),③ 優化演算法。

5、給定一組有類別標號(M 類)的樣本 x1,,xN(xiRd)。現有兩種特徵提取方法 F1F2,和兩種分類方法 C1C2。請設計一個實驗方案,分別比較特徵提取方法和分類方法的效能。寫出詳細實驗過程。

採用 5-fold 交叉驗證來評估

二、統計決策方法

1、簡述多分類問題的最小錯誤率貝葉斯決策過程,並給出相應的最小分類錯誤率。

2、闡述最小風險貝葉斯決策原理和決策步驟,說明在什麼情況下最小風險決策等價於最小錯誤率決策,並證明之。

(1)決策原理

最小風險貝葉斯決策的目標是,針對決策規則 α(x),最小化期望風險:

minαR(α)=R(α|x)p(x)dx.

由於 R(α|x)p(x) 非負,且 p(x) 已知,與 α 無關,因而最小風險貝葉斯決策就是:

R(αi|x)=minj=1,,kR(αj|x),則 α=αi.

其中 R(αi|x)=E[λij|x]=cj=1P(ωj|x),i=1,,kλij=λ(αi,ωj) 表示實際為 ωj 的向量決策為 αi 的損失,可從事先定義的決策表查得.

(2)決策步驟

① 計算後驗概率:P(ωj|x)=p(x|ωj)P(ωj)ci=1p(x|ωi)P(ωi).

② 利用決策表,計算條件風險:R(αi