機器學習-周誌華-第一章
緒論
1.1 引言
什麽是機器學習?
它是一門致力於研究如何通過計算的手段,利用經驗來改善系統自身性能的一門學科。所研究的主要內容是計算機如何通過數據產生模型,即學習算法。有了學習算法後,當我們給它提供經驗數據時就能基於這些數據產生模型。在面對新數據時學習算法會給我們相應的判斷。經驗通常以數據的形式存在
名詞理解
模型:一類問題的解題步驟
算法:一個問題的解題步驟
學習算法:由數據產生的一類問題的解題步驟。通過學習算法從數據中獲得模型
ps:阿爾法狗零自學三天以100:0戰勝阿爾法狗。這裏阿爾法狗零利用人類經驗提升自身能力,這就是機器學習
1.2 基本術語
數據集
示例
屬性、特征
屬性空間、樣本空間、輸入空間:數據的維度空間
特征向量:
學習、訓練:從數據中學得模型的過程
訓練數據:訓練過程中使用的數據
訓練樣本:
訓練集:多個訓練樣本的集合
假設:學到的模型
真相:數據某種潛在的規律
標記:示例的結果信息
樣例:有標記信息的示例
標記空間、輸出空間:(x,y),y:所有標記的集合
分類:預測值是離散的學習任務
二分類:只涉及兩個類別的分類
多分類:
回歸:預測值是連續的學習任務
聚類:將訓練集中的示例分組
監督學習:訓練數據中擁有標記信息的學習任務 。如分類和回歸
無監督學習:訓練數據中不包含標記信息的雪人任務;如聚類
泛化能力:學得模型適用於新樣本的能力
1.3 假設空間
科學推理兩大基本手段:歸納和演繹
歸納:從特殊到一般的泛化過程,即從具體事實歸納出一般性規律。從樣例中學習,顯然是一個歸納過程,也稱歸納學習
演繹:從一般到特殊的特化過程,即從基礎原理推演出具體狀況。例如在數學中,由一組公理推到出定理,這就是演繹
歸納學習有廣義和狹義之分
廣義歸納學習基本是從樣例(帶有標記信息的訓練數據)中學習
狹義歸納學習要求從訓練數據中學得概念,稱為概念學習。概念學習技術目前研究和應用都比較少
由概念學習學得概念,由概念得知假設空間。圖1.1 西瓜問題的假設空間
整個學習過程:概念學習學得好瓜概念,可以得出好瓜可能的組合,再根據樣例數據排除非好瓜的組合,最好得出好瓜的假設
版本空間:一組與訓練集一致的假設 如何求取版本空間。
求取版本空間:版本空間就是從假設空間剔除了與正例不一致和與反例一致的假設,它可以看成是對正例的最大泛化。
1.4 歸納偏好
當學得模型(多個)面臨新樣本時,產生不同的輸出,這樣的學習結果是沒有意義的。在產生不同輸出時必須選擇一個更信賴的模型,這就是歸納偏好。一個有效的學習算法,必須有歸納偏好。大多數時候歸納偏好直接決定了學習算法能否取得好的性能
歸納偏好原則:
奧卡姆剃刀(occam‘s razor):若有多個假設與與觀察一致,選擇最簡單的
沒有免費午餐定理(no freee lunch theorem 簡稱NFL定理 ):若A算法在某些問題上比B算法要好,那必然存在在某些問題上B算法比A算法要好。即沒有一個算法試用於任何情況。NFL最重要的寓意是讓我們清楚的認識到,脫離具體問題空談什麽學習算法更好是沒有意義的。因為若考慮所有潛在問題NFL已經證明了所有算法一樣好。
問題:
為什麽概念學習中使用樣例數據?按照狹義歸納學習應該使用訓練數據
課後習題:完整答案
1.1
先看看版本空間定義,文章寫得不錯
版本空間就是從假設空間剔除了與正例不一致和與反例一致的假設,它可以看成是對正例的最大泛化。
解:
假設空間指的是問題所有假設組成的空間,我們可以把學習過程看作是在假設空間中搜索的過程,搜索目標是尋找與訓練集“匹配”的假設。
假設數據集有n種屬性,第i個屬性可能的取值有titi種,加上該屬性的泛化取值(*),所以可能的假設有∏i(ti+1)∏i(ti+1)。再用空集表示沒有正例,假設空間中一共∏i(ti+1)+1∏i(ti+1)+1種假設。
現實問題中常面臨很大的假設空間,我們可以尋找一個與訓練集一致的假設集合,稱之為版本空間。版本空間從假設空間剔除了與正例不一致和與反例一致的假設,它可以看成是對正例的最大泛化。
編號 色澤 根蒂 敲聲 好瓜
1 青綠 蜷縮 濁響 是
2 烏黑 稍蜷 沈悶 否
數據集有3個屬性,每個屬性2種取值,一共 3?3?3+1=283?3?3+1=28種假設,分別為
1.色澤=青綠 根蒂=蜷縮 敲聲=濁響
2.色澤=青綠 根蒂=蜷縮 敲聲=沈悶
3.色澤=青綠 根蒂=稍蜷 敲聲=濁響
4.色澤=青綠 根蒂=稍蜷 敲聲=沈悶
5.色澤=烏黑 根蒂=蜷縮 敲聲=濁響
6.色澤=烏黑 根蒂=蜷縮 敲聲=沈悶
7.色澤=烏黑 根蒂=稍蜷 敲聲=濁響
8.色澤=烏黑 根蒂=稍蜷 敲聲=沈悶
9.色澤=青綠 根蒂=蜷縮 敲聲=*
10.色澤=青綠 根蒂=稍蜷 敲聲=*
11.色澤=烏黑 根蒂=蜷縮 敲聲=*
12.色澤=烏黑 根蒂=稍蜷 敲聲=*
13.色澤=青綠 根蒂=* 敲聲=濁響
14.色澤=青綠 根蒂=* 敲聲=沈悶
15.色澤=烏黑 根蒂=* 敲聲=濁響
16.色澤=烏黑 根蒂=* 敲聲=沈悶
17.色澤=* 根蒂=蜷縮 敲聲=濁響
18.色澤=* 根蒂=蜷縮 敲聲=沈悶
19.色澤=* 根蒂=稍蜷 敲聲=濁響
20.色澤=* 根蒂=稍蜷 敲聲=沈悶
21.色澤=青綠 根蒂=* 敲聲=*
22.色澤=烏黑 根蒂=* 敲聲=*
23.色澤=* 根蒂=蜷縮 敲聲=*
24.色澤=* 根蒂=稍蜷 敲聲=*
25.色澤=* 根蒂=* 敲聲=濁響
26.色澤=* 根蒂=* 敲聲=沈悶
27.色澤=* 根蒂=* 敲聲=*
28.空集?
編號1的數據可以刪除 2?8,10?12,14?16,18?20,22,24,26,282?8,10?12,14?16,18?20,22,24,26,28(不包含數據1)
編號1的數據可以刪除 2727(包含了數據2)
所以版本空間為:
1.色澤=青綠 根蒂=蜷縮 敲聲=濁響
9.色澤=青綠 根蒂=蜷縮 敲聲=*
13.色澤=青綠 根蒂=* 敲聲=濁響
17.色澤=* 根蒂=蜷縮 敲聲=濁響
21.色澤=青綠 根蒂=* 敲聲=*
23.色澤=* 根蒂=蜷縮 敲聲=*
25.色澤=* 根蒂=* 敲聲=濁響
一般情況下版本空間是正例的泛化,但由於數據集中只有1個正例,所以在版本空間中依然包含了這個樣本的假設(假設1)。
---------------------
作者:四去六進一
來源:CSDN
原文:https://blog.csdn.net/icefire_tyh/article/details/52065224
版權聲明:本文為博主原創文章,轉載請附上博文鏈接!
1.2
析取範式 合取範式的概念 https://baike.baidu.com/item/%E6%9E%90%E5%8F%96/2841171?fr=aladdin
析取:邏輯或運算,並集;符號:∨
合取:邏輯與運算,交集;符號:∧
範式:範式為各種千變萬化的命題公式提供了一個統一(規範)的表達形式
簡單析取式:有限個文字構成的析取式
簡單合取式:有限個文字構成的合取式
析取範式:有限個簡單合取式構成的析取式
合取範式:有限個簡單析取式構成的合取式
機器學習-周誌華-第一章