Coursera機器學習基石筆記week5

阿新 • • 發佈：2018-11-12

Training vs Testing

Recap and Preview

簡單回顧一下前面幾節課的內容：

第一節課，介紹了機器學習的定義，目標是找到最好的g，使g $\approx$ f,保證 $E_{out}(g)\approx0$
第二節課，介紹瞭如何讓 $E_{in}\approx0$ ,即使用PLA、pocket algorithm來實現
第三節課，介紹了機器學習的分類
第四節課，介紹了機器學習的可行性，通過統計學知識，證明了在一些假設前提下，證明了 $E_{in}(g)\approx E_{out}(g)$

那麼總的來說機器學習就是為了使 $E_{in}(g)\approx E_{out}(g)\approx 0$

當M很小的時候，由上節課介紹的霍夫丁不等式，得到 $E_{in}(g)\approx E_{out}(g)$ ，即能保證第一個核心問題成立。但M很小時，演演算法A可以選擇的hypothesis有限，不一定能找到使 $E_{in}(g)$ 足夠小的hypothesis，即不能保證第二個核心問題成立。當M很大的時候，同樣由霍夫丁不等式， $E_{in}(g)$ 與 $E_{out}(g)$ 的差距可能比較大，第一個核心問題可能不成立。而M很大，使得演演算法A的可以選擇的hypothesis就很多，很有可能找到一個hypothesis，使 $E_{in}(g)$ 足夠小，第二個核心問題可能成立。

從上面的分析來看，M的選擇直接影響機器學習兩個核心問題是否滿足，M不能太大也不能太小。

Effective Number of Lines

如果平面上只有一個點x1，那麼直線的種類有兩種：一種將x1劃為+1，一種將x1劃為-1：
在這裡插入圖片描述
平面上有兩個點時，直線的種類有4種：

但是在平面有三個點的情況也會出現不能用一條直線劃分的情況：

也就是說，對於平面上三個點，不能保證所有的8個類別都能被一條直線劃分。那如果是四個點x1、x2、x3、x4，我們發現，平面上找不到一條直線能將四個點組成的16個類別完全分開，最多隻能分開其中的14類，即直線最多隻有14種：
在這裡插入圖片描述

Effective Number of Hypotheses

dichotomy（二分類）就是將空間中的點（例如二維平面）用一條直線分成正類（藍色o）和負類（紅色x）。令H是將平面上的點用直線分開的所有hypothesis h的集合，dichotomy H與hypotheses H的關係是：hypotheses H是平面上所有直線的集合，個數可能是無限個，而dichotomy H是平面上能將點完全用直線分開的直線種類，它的上界是 $2^N$ 。接下來，我們要做的就是嘗試用dichotomy代替M。

成長函式（growth function），記為 $m_H(H)$ 。
在這裡插入圖片描述
成長函式就是讓我們找最大的dichotomy。也就是找之前對應effective lines的數量最大值。

針對一維的Positive Rays：
在這裡插入圖片描述
若有N個點，則整個區域可分為N+1段，很容易得到其成長函式 $m_H(N)=N+1$ 。注意當N很大時， $(N+1)\lt\lt2^N$ ，這是我們希望看到的

針對一維的Positive Intervals：
在這裡插入圖片描述
它的成長函式可以由下面推導得出：

上面的成長函式中，藍色的表示在N+1個節點中選擇兩個端點進行切割，兩個端點之間為+1即 $C_2^{N+1}$ ,紅色的表示不選擇端點進行切割，即所有的節點都是-1.

這種情況下， $m_H(N)=\frac{1}{2}N^2+\frac{1}{2}N+1\lt\lt2^N$ ，在N很大的時候，仍然是滿足的。

再來看這個例子，假設在二維空間裡，如果hypothesis是凸多邊形或類圓構成的封閉曲線，如下圖所示，左邊是convex的，右邊不是convex的。那麼，它的成長函式是多少呢？
在這裡插入圖片描述
當資料集D按照如下的凸分佈時，我們很容易計算得到它的成長函式 $m_H=2^N$ 。這種情況下，N個點所有可能的分類情況都能夠被hypotheses set覆蓋，我們把這種情形稱為shattered。也就是說，如果能夠找到一個數據分佈集，hypotheses set對N個輸入所有的分類情況都做得到，那麼它的成長函式就是 $2^N$ 。
在這裡插入圖片描述

Break Point

我們已經知道：
在這裡插入圖片描述
對於2D perceptrons，我們之前分析了3個點，可以做出8種所有的dichotomy，而4個點，就無法做出所有16個點的dichotomy了。所以，我們就把4稱為2D perceptrons的break point（5、6、7等都是break point）。令有k個點，如果k大於等於break point時，它的成長函式一定小於2的k次方。

break point的定義就是使 $M_H(k)\neq2^k$ 的k的最小值。那麼根據該定義，我們可以得出：
在這裡插入圖片描述
通過觀察，我們猜測成長函式可能與break point存在某種關係：對於convex sets，沒有break point，它的成長函式是2的N次方；對於positive rays，break point k=2，它的成長函式是O(N)；對於positive intervals，break point k=3，它的成長函式是 $O(N^2)$ 。則根據這種推論，我們猜測2D perceptrons，它的成長函式 $m_H(N)=O(N^{k-1})$ 。如果成立，那麼就可以用 $m_H$ 代替M，就滿足了機器能夠學習的條件。

總結

本節課，我們指出針對N個訓練資料，最多隻有 $2^N$ 個hypothesis，由此引出了成長函式。針對不同的情況，成長函式也各有不同。對於我們學習的2D perceptrons，我們發現從某點開始是少於 $2^N$ 次的。由此又引出break point的概念。

Coursera機器學習基石筆記week5

Training vs Testing

Recap and Preview

Effective Number of Lines

Effective Number of Hypotheses

Break Point

總結

Coursera機器學習基石筆記week5

Coursera機器學習基石筆記week4

Coursera機器學習基石筆記week3

Coursera機器學習基石筆記Week2

Coursera機器學習基石筆記Week1

Coursera機器學習基石筆記week7

Coursera機器學習基石筆記week9

Coursera機器學習基石筆記week8

Coursera機器學習基石筆記week6

Coursera機器學習基石筆記week16

Coursera機器學習基石筆記week15

Coursera機器學習基石筆記week14

Coursera機器學習基石筆記week13

Coursera機器學習基石筆記week12

Coursera機器學習基石筆記week11

Coursera機器學習基石筆記week10

機器學習基石筆記-Lecture 10 Logistic regression

機器學習基石筆記-Lecture 9 Linear regression

機器學習基石筆記-Lecture 4 Learning is possible

機器學習基石筆記-Lecture 3 Types of learning

Coursera機器學習基石筆記week5

Training vs Testing

Recap and Preview

Effective Number of Lines

Effective Number of Hypotheses

Break Point

總結

相關推薦