1. 程式人生 > >西瓜書(周志華):什麼是版本空間以及如何求取版本空間

西瓜書(周志華):什麼是版本空間以及如何求取版本空間

下面是自己結合百度的資料來理解的一些比較通俗的說法:

假設空間:屬性所有可能取值組成的可能的樣本

版本空間:與已知資料集一致的所有假設的子集集合。


(綠色加號代表正類樣本,紅色小圈代表負類樣本)

GB 是最大泛化正假設邊界(maximally General positive hypothesis Boundary),;

SB 是最大精確正假設邊界(maximally Specific positive hypothesis Boundary)

GB與SB之間所圍成的區域就是版本空間。

----->總結:

在西瓜問題中,如何根據訓練集求所對應的版本空間?

①寫出假設空間:先列出所有可能的樣本點(即特徵向量)(即每個屬性都取到所有的屬性值)

②對應著給出的已知資料集,將與正樣本不一致的、與負樣本一致的假設刪除。

即可得出與訓練集一致的假設集合,也就是版本空間了。

----->舉例:


表1.1的訓練資料集對應的假設空間應該如下:

1 色澤=*,根蒂=*,敲聲=*

2 色澤=青綠,根蒂=*,敲聲=*

3 色澤=烏黑,根蒂=*,敲聲=*

4 色澤=*,根蒂=蜷縮,敲聲=*

5 色澤=*,根蒂=硬挺,敲聲=*

6 色澤=*,根蒂=稍蜷,敲聲=*

7 色澤=*,根蒂=*,敲聲=濁響

8 色澤=*,根蒂=*,敲聲=清脆

9 色澤=*,根蒂=*,敲聲=沉悶

10 色澤=青綠,根蒂=蜷縮,敲聲=*

11 色澤=青綠,根蒂=硬挺,敲聲=*

12 色澤=青綠,根蒂=稍蜷,敲聲=*

13 色澤=烏黑,根蒂=蜷縮,敲聲=*

14 色澤=烏黑,根蒂=硬挺,敲聲=*

15 色澤=烏黑,根蒂=稍蜷,敲聲=*

16 色澤=青綠,根蒂=*,敲聲=濁響

17 色澤=青綠,根蒂=*,敲聲=清脆

18 色澤=青綠,根蒂=*,敲聲=沉悶

19 色澤=烏黑,根蒂=*,敲聲=濁響

20 色澤=烏黑,根蒂=*,敲聲=清脆

21 色澤=烏黑,根蒂=*,敲聲=沉悶

22 色澤=*,根蒂=蜷縮,敲聲=濁響

23 色澤=*,根蒂=蜷縮,敲聲=清脆

24 色澤=*,根蒂=蜷縮,敲聲=沉悶

25 色澤=*,根蒂=硬挺,敲聲=濁響

26 色澤=*,根蒂=硬挺,敲聲=清脆

27 色澤=*,根蒂=硬挺,敲聲=沉悶

28 色澤=*,根蒂=稍蜷,敲聲=濁響

29 色澤=*,根蒂=稍蜷,敲聲=清脆

30 色澤=*,根蒂=稍蜷,敲聲=沉悶

31 色澤=青綠,根蒂=蜷縮,敲聲=濁響

32 色澤=青綠,根蒂=蜷縮,敲聲=清脆

33 色澤=青綠,根蒂=蜷縮,敲聲=沉悶

34 色澤=青綠,根蒂=硬挺,敲聲=濁響

35 色澤=青綠,根蒂=硬挺,敲聲=清脆

36 色澤=青綠,根蒂=硬挺,敲聲=沉悶

37 色澤=青綠,根蒂=稍蜷,敲聲=濁響

38 色澤=青綠,根蒂=稍蜷,敲聲=清脆

39 色澤=青綠,根蒂=稍蜷,敲聲=沉悶

40 色澤=烏黑,根蒂=蜷縮,敲聲=濁響

41 色澤=烏黑,根蒂=蜷縮,敲聲=清脆

42 色澤=烏黑,根蒂=蜷縮,敲聲=沉悶

43 色澤=烏黑,根蒂=硬挺,敲聲=濁響

44 色澤=烏黑,根蒂=硬挺,敲聲=清脆

45 色澤=烏黑,根蒂=硬挺,敲聲=沉悶

46 色澤=烏黑,根蒂=稍蜷,敲聲=濁響

47 色澤=烏黑,根蒂=稍蜷,敲聲=清脆

48 色澤=烏黑,根蒂=稍蜷,敲聲=沉悶

49 Ø

根據總結,按照上述過程進行學習:

(1,(色澤=青綠、根蒂=蜷縮、敲聲=濁響),好瓜)

可以刪除假設空間中的3、5、6、8、9、11-15、17-21、23-30、32-49

(2,(色澤=烏黑、根蒂=蜷縮、敲聲=濁響),好瓜)

可以刪除剩餘假設空間中的2、10、16、31

(3,(色澤=青綠、根蒂=硬挺、敲聲=清脆),壞瓜)

可以刪除剩餘假設空間中的1

(4,(色澤=烏黑、根蒂=稍蜷、敲聲=沉悶),壞瓜)

剩餘假設空間中無可刪除的假設

學習過後剩餘的假設為:

4 色澤=*,根蒂=蜷縮,敲聲=*

7 色澤=*,根蒂=*,敲聲=濁響

22 色澤=*,根蒂=蜷縮,敲聲=濁響

這就是最後的“假設集合”,也就是“版本空間”。