ML的45問(1)——概念學習、歸納偏置與候選消除法
0. 寫在前面
從這章開始,我們針對機器學習的45問進行一個個的解答,這45問來自於Tom M.Mitchell的機器學習一書。大家可以參考一下。希望這45個問題能夠解決一些關於機器學習相關知識的疑惑。
1. 機器學習的定義
機器學習的定義是:
對於某類任務T和效能度量P,如果一個計算機程式在T上以P衡量的效能隨著經驗E而自我完善,那麼我們稱這個計算機程式在從經驗E中學習。
2. 學習問題的三個特徵與選擇訓練經驗的三個要素
2.1學習問題的三個特徵
- 任務的種類
- 衡量任務提高的標準
- 經驗來源
2.2選擇訓練經驗的三個要素
- 訓練經驗能否為系統的決策提供直接或間接的反饋
- 學習器能在多大的程度上控制樣例序列
- 訓練樣例的分佈能多好的表示例項分佈
3. 設計學習系統的流程
- 選擇訓練經驗:與自己博弈/與專家博弈
- 選擇目標函式:棋盤走子/分值計算
- 選擇目標函式的表示形式:多項式/人工神經網路
- 選擇目標函式的逼近演算法:梯度下降/線性規劃
- 最終的系統設計
1) 執行系統,用來產生目標結果
2)鑑定器,用來生成訓練樣例
3)泛化器,用來生成評估函式
4)實驗生成器,用來產生實驗資料
4. 概念學習的定義
概念學習是指從有關某個布林函式的輸入輸出訓練樣例中推斷出該布林函式。
5.假設的表示形式
概念學習有3個級別:
最特殊的:∅ ,表示不接收任何值
普通的:
最一般的:?,表示接受任何值
6. 例項空間與假設空間的大小
例項空間大小為:
假設空間大小為:
7. 概念學習的歸納偏置
斷言假設的形式為屬性的合取是一種歸納偏置
另外也有一個假設:
1. 是目標概念C包含在給定的假設空間H中
2. 一般的假設位元殊假設包含的正例數更多
8.Find-S演算法
Find-S演算法找的是最大特殊假設,演算法步驟如下:
1. 初始化H為<∅,∅,∅,∅,…>
2. 對每一個正例,使用它去修改H與其不一致的值
1) 如果為∅,則修改為具體值
2)如果為具體值又不相同,則改為?
3. 輸出最終的H
9.候選消除法
候選消除法比Find-S演算法更加高階,因為它同時維護一個最特殊假設,也維護一個最一般假設。
對於一個正例d來講,要使S進行一般化,也就是要讓S滿足d,這樣S就不斷向?靠攏。
對於一個負例d來講,要使G進行特殊化,把?變成d的反例,而且每次只需修改一個屬性值即可。也就是說,如果出現了一個負例的多個屬性值不同,那麼每一個都只需要修改一個屬性值,這樣就形成了一個層次的多個不同的G。
但是,這裡要遵循一個原則:S要比G特殊,也就是說
∅ | sunny | ? |
---|---|---|
1 | 2 | 3 |
如果S到了i的位置(1≤i≤3),則G必須是(i≤j≤3)
否則就刪掉或者不用寫出來。
最終,全部的變形空間,每一次只能特殊化一個引數。
10. 變形空間的定義與表示
變形空間就是與訓練樣例D一致的所有假設
可使用最特殊邊界與最一般邊界所夾的空間表示。
11.小結
我們這次的前十個問題,主要是對於第一章、第二章的內容進行了相關的講解。這些都是平時學習中的一些問題和解答。