西瓜書(周志華):什麼是版本空間以及如何求取版本空間
下面是自己結合百度的資料來理解的一些比較通俗的說法:
假設空間:屬性所有可能取值組成的可能的樣本
版本空間:與已知資料集一致的所有假設的子集集合。
(綠色加號代表正類樣本,紅色小圈代表負類樣本)
GB 是最大泛化正假設邊界(maximally General positive hypothesis Boundary),;
SB 是最大精確正假設邊界(maximally Specific positive hypothesis Boundary)
GB與SB之間所圍成的區域就是版本空間。
----->總結:
在西瓜問題中,如何根據訓練集求所對應的版本空間?
①寫出假設空間:先列出所有可能的樣本點(即特徵向量)(即每個屬性都取到所有的屬性值)
②對應著給出的已知資料集,將與正樣本不一致的、與負樣本一致的假設刪除。
即可得出與訓練集一致的假設集合,也就是版本空間了。
----->舉例:
表1.1的訓練資料集對應的假設空間應該如下:
1 色澤=*,根蒂=*,敲聲=*
2 色澤=青綠,根蒂=*,敲聲=*
3 色澤=烏黑,根蒂=*,敲聲=*
4 色澤=*,根蒂=蜷縮,敲聲=*
5 色澤=*,根蒂=硬挺,敲聲=*
6 色澤=*,根蒂=稍蜷,敲聲=*
7 色澤=*,根蒂=*,敲聲=濁響
8 色澤=*,根蒂=*,敲聲=清脆
9 色澤=*,根蒂=*,敲聲=沉悶
10 色澤=青綠,根蒂=蜷縮,敲聲=*
11 色澤=青綠,根蒂=硬挺,敲聲=*
12 色澤=青綠,根蒂=稍蜷,敲聲=*
13 色澤=烏黑,根蒂=蜷縮,敲聲=*
14 色澤=烏黑,根蒂=硬挺,敲聲=*
15 色澤=烏黑,根蒂=稍蜷,敲聲=*
16 色澤=青綠,根蒂=*,敲聲=濁響
17 色澤=青綠,根蒂=*,敲聲=清脆
18 色澤=青綠,根蒂=*,敲聲=沉悶
19 色澤=烏黑,根蒂=*,敲聲=濁響
20 色澤=烏黑,根蒂=*,敲聲=清脆
21 色澤=烏黑,根蒂=*,敲聲=沉悶
22 色澤=*,根蒂=蜷縮,敲聲=濁響
23 色澤=*,根蒂=蜷縮,敲聲=清脆
24 色澤=*,根蒂=蜷縮,敲聲=沉悶
25 色澤=*,根蒂=硬挺,敲聲=濁響
26 色澤=*,根蒂=硬挺,敲聲=清脆
27 色澤=*,根蒂=硬挺,敲聲=沉悶
28 色澤=*,根蒂=稍蜷,敲聲=濁響
29 色澤=*,根蒂=稍蜷,敲聲=清脆
30 色澤=*,根蒂=稍蜷,敲聲=沉悶
31 色澤=青綠,根蒂=蜷縮,敲聲=濁響
32 色澤=青綠,根蒂=蜷縮,敲聲=清脆
33 色澤=青綠,根蒂=蜷縮,敲聲=沉悶
34 色澤=青綠,根蒂=硬挺,敲聲=濁響
35 色澤=青綠,根蒂=硬挺,敲聲=清脆
36 色澤=青綠,根蒂=硬挺,敲聲=沉悶
37 色澤=青綠,根蒂=稍蜷,敲聲=濁響
38 色澤=青綠,根蒂=稍蜷,敲聲=清脆
39 色澤=青綠,根蒂=稍蜷,敲聲=沉悶
40 色澤=烏黑,根蒂=蜷縮,敲聲=濁響
41 色澤=烏黑,根蒂=蜷縮,敲聲=清脆
42 色澤=烏黑,根蒂=蜷縮,敲聲=沉悶
43 色澤=烏黑,根蒂=硬挺,敲聲=濁響
44 色澤=烏黑,根蒂=硬挺,敲聲=清脆
45 色澤=烏黑,根蒂=硬挺,敲聲=沉悶
46 色澤=烏黑,根蒂=稍蜷,敲聲=濁響
47 色澤=烏黑,根蒂=稍蜷,敲聲=清脆
48 色澤=烏黑,根蒂=稍蜷,敲聲=沉悶
49 Ø
根據總結,按照上述過程進行學習:
(1,(色澤=青綠、根蒂=蜷縮、敲聲=濁響),好瓜)
可以刪除假設空間中的3、5、6、8、9、11-15、17-21、23-30、32-49
(2,(色澤=烏黑、根蒂=蜷縮、敲聲=濁響),好瓜)
可以刪除剩餘假設空間中的2、10、16、31
(3,(色澤=青綠、根蒂=硬挺、敲聲=清脆),壞瓜)
可以刪除剩餘假設空間中的1
(4,(色澤=烏黑、根蒂=稍蜷、敲聲=沉悶),壞瓜)
剩餘假設空間中無可刪除的假設
學習過後剩餘的假設為:
4 色澤=*,根蒂=蜷縮,敲聲=*
7 色澤=*,根蒂=*,敲聲=濁響
22 色澤=*,根蒂=蜷縮,敲聲=濁響
這就是最後的“假設集合”,也就是“版本空間”。