機器學習-周誌華-第一章

阿新 • • 發佈：2018-11-06

數據集不一致符號 com 可能目前歸納預測 2種

緒論

1.1 引言

什麽是機器學習？

它是一門致力於研究如何通過計算的手段，利用經驗來改善系統自身性能的一門學科。所研究的主要內容是計算機如何通過數據產生模型，即學習算法。有了學習算法後，當我們給它提供經驗數據時就能基於這些數據產生模型。在面對新數據時學習算法會給我們相應的判斷。經驗通常以數據的形式存在

名詞理解

模型：一類問題的解題步驟

算法：一個問題的解題步驟

學習算法：由數據產生的一類問題的解題步驟。通過學習算法從數據中獲得模型

ps：阿爾法狗零自學三天以100:0戰勝阿爾法狗。這裏阿爾法狗零利用人類經驗提升自身能力，這就是機器學習

1.2 基本術語

數據集

示例

屬性、特征

屬性空間、樣本空間、輸入空間：數據的維度空間

特征向量：

學習、訓練：從數據中學得模型的過程

訓練數據：訓練過程中使用的數據

訓練樣本：

訓練集：多個訓練樣本的集合

假設：學到的模型

真相：數據某種潛在的規律

標記：示例的結果信息

樣例：有標記信息的示例

標記空間、輸出空間：（x,y），y：所有標記的集合

分類：預測值是離散的學習任務

二分類：只涉及兩個類別的分類

多分類：

回歸：預測值是連續的學習任務

聚類：將訓練集中的示例分組

監督學習：訓練數據中擁有標記信息的學習任務。如分類和回歸

無監督學習：訓練數據中不包含標記信息的雪人任務；如聚類

泛化能力：學得模型適用於新樣本的能力

1.3 假設空間

科學推理兩大基本手段：歸納和演繹

歸納：從特殊到一般的泛化過程，即從具體事實歸納出一般性規律。從樣例中學習，顯然是一個歸納過程，也稱歸納學習

演繹：從一般到特殊的特化過程，即從基礎原理推演出具體狀況。例如在數學中，由一組公理推到出定理，這就是演繹

歸納學習有廣義和狹義之分

廣義歸納學習基本是從樣例（帶有標記信息的訓練數據）中學習

狹義歸納學習要求從訓練數據中學得概念，稱為概念學習。概念學習技術目前研究和應用都比較少

由概念學習學得概念，由概念得知假設空間。圖1.1 西瓜問題的假設空間

整個學習過程：概念學習學得好瓜概念，可以得出好瓜可能的組合，再根據樣例數據排除非好瓜的組合，最好得出好瓜的假設

版本空間：一組與訓練集一致的假設如何求取版本空間。

求取版本空間：版本空間就是從假設空間剔除了與正例不一致和與反例一致的假設，它可以看成是對正例的最大泛化。

1.4 歸納偏好

當學得模型（多個）面臨新樣本時，產生不同的輸出，這樣的學習結果是沒有意義的。在產生不同輸出時必須選擇一個更信賴的模型，這就是歸納偏好。一個有效的學習算法，必須有歸納偏好。大多數時候歸納偏好直接決定了學習算法能否取得好的性能

歸納偏好原則：

奧卡姆剃刀（occam‘s razor）：若有多個假設與與觀察一致，選擇最簡單的

沒有免費午餐定理（no freee lunch theorem 簡稱NFL定理）：若A算法在某些問題上比B算法要好，那必然存在在某些問題上B算法比A算法要好。即沒有一個算法試用於任何情況。NFL最重要的寓意是讓我們清楚的認識到，脫離具體問題空談什麽學習算法更好是沒有意義的。因為若考慮所有潛在問題NFL已經證明了所有算法一樣好。

問題：

為什麽概念學習中使用樣例數據？按照狹義歸納學習應該使用訓練數據

課後習題：完整答案

1.1

先看看版本空間定義，文章寫得不錯

版本空間就是從假設空間剔除了與正例不一致和與反例一致的假設，它可以看成是對正例的最大泛化。

解：

假設空間指的是問題所有假設組成的空間，我們可以把學習過程看作是在假設空間中搜索的過程，搜索目標是尋找與訓練集“匹配”的假設。

假設數據集有n種屬性，第i個屬性可能的取值有titi種，加上該屬性的泛化取值(*)，所以可能的假設有∏i(ti+1)∏i(ti+1)。再用空集表示沒有正例，假設空間中一共∏i(ti+1)+1∏i(ti+1)+1種假設。
現實問題中常面臨很大的假設空間，我們可以尋找一個與訓練集一致的假設集合，稱之為版本空間。版本空間從假設空間剔除了與正例不一致和與反例一致的假設，它可以看成是對正例的最大泛化。

編號色澤根蒂敲聲好瓜
1 青綠蜷縮濁響是
2 烏黑稍蜷沈悶否
數據集有3個屬性，每個屬性2種取值，一共 3?3?3+1=283?3?3+1=28種假設，分別為

1.色澤=青綠根蒂=蜷縮敲聲=濁響
2.色澤=青綠根蒂=蜷縮敲聲=沈悶
3.色澤=青綠根蒂=稍蜷敲聲=濁響
4.色澤=青綠根蒂=稍蜷敲聲=沈悶
5.色澤=烏黑根蒂=蜷縮敲聲=濁響
6.色澤=烏黑根蒂=蜷縮敲聲=沈悶
7.色澤=烏黑根蒂=稍蜷敲聲=濁響
8.色澤=烏黑根蒂=稍蜷敲聲=沈悶
9.色澤=青綠根蒂=蜷縮敲聲=*
10.色澤=青綠根蒂=稍蜷敲聲=*
11.色澤=烏黑根蒂=蜷縮敲聲=*
12.色澤=烏黑根蒂=稍蜷敲聲=*
13.色澤=青綠根蒂=* 敲聲=濁響
14.色澤=青綠根蒂=* 敲聲=沈悶
15.色澤=烏黑根蒂=* 敲聲=濁響
16.色澤=烏黑根蒂=* 敲聲=沈悶
17.色澤=* 根蒂=蜷縮敲聲=濁響
18.色澤=* 根蒂=蜷縮敲聲=沈悶
19.色澤=* 根蒂=稍蜷敲聲=濁響
20.色澤=* 根蒂=稍蜷敲聲=沈悶
21.色澤=青綠根蒂=* 敲聲=*
22.色澤=烏黑根蒂=* 敲聲=*
23.色澤=* 根蒂=蜷縮敲聲=*
24.色澤=* 根蒂=稍蜷敲聲=*
25.色澤=* 根蒂=* 敲聲=濁響
26.色澤=* 根蒂=* 敲聲=沈悶
27.色澤=* 根蒂=* 敲聲=*
28.空集?
編號1的數據可以刪除 2?8，10?12，14?16，18?20，22，24，26，282?8，10?12，14?16，18?20，22，24，26，28(不包含數據1)
編號1的數據可以刪除 2727(包含了數據2)
所以版本空間為:
1.色澤=青綠根蒂=蜷縮敲聲=濁響
9.色澤=青綠根蒂=蜷縮敲聲=*
13.色澤=青綠根蒂=* 敲聲=濁響
17.色澤=* 根蒂=蜷縮敲聲=濁響
21.色澤=青綠根蒂=* 敲聲=*
23.色澤=* 根蒂=蜷縮敲聲=*
25.色澤=* 根蒂=* 敲聲=濁響
一般情況下版本空間是正例的泛化，但由於數據集中只有1個正例，所以在版本空間中依然包含了這個樣本的假設(假設1)。
---------------------
作者：四去六進一
來源：CSDN
原文：https://blog.csdn.net/icefire_tyh/article/details/52065224
版權聲明：本文為博主原創文章，轉載請附上博文鏈接！

1.2

析取範式合取範式的概念 https://baike.baidu.com/item/%E6%9E%90%E5%8F%96/2841171?fr=aladdin

析取：邏輯或運算，並集；符號：∨

合取：邏輯與運算，交集；符號：∧

範式：範式為各種千變萬化的命題公式提供了一個統一（規範）的表達形式

簡單析取式：有限個文字構成的析取式

簡單合取式：有限個文字構成的合取式

析取範式：有限個簡單合取式構成的析取式

合取範式：有限個簡單析取式構成的合取式

機器學習-周誌華-第一章

數據集不一致符號 com 可能目前歸納預測 2種緒論 1.1 引言什麽是機器學習？它是一門致力於研究如何通過計算的手段，利用經驗來改善系統自身性能的一門學科。所研究的主要內容是計算機如何通過數據產生模型，即學習算法。有了學習算法後，當我們給它提供經驗數據時就

機器學習-周誌華-第一章

機器學習-周誌華-第一章

機器學習-周志華-第一章

機器學習周志華第一章習題

機器學習周誌華第1章習題

機器學習周誌華 pdf統計學習人工智能資料下載

《機器學習》周志華第一章參考答案

機器學習(周志華) 參考答案第一章緒論

《機器學習》-周志華第一章緒論習題1.2

機器學習(周志華) 參考答案第一章緒論 1.2

【機器學習】周志華第一章緒論含答案

機器學習(周志華) 參考答案第十六章強化學習

機器學習--周志華（第1章）

機器學習(周志華) 參考答案第三章線性模型 3.3

機器學習(周志華) 參考答案第十四章概率圖模型

機器學習(周志華) 參考答案第四章決策樹 python重寫版與畫樹演算法

機器學習(周志華) 參考答案第二章模型評估與選擇

機器學習(周志華) 參考答案第十五章規則學習

機器學習-周志華-第五章筆記 CNN

機器學習周志華筆記

學習筆記 | 機器學習-周志華 | 5

機器學習-周誌華-第一章

相關推薦