機器學習總結之第一章緒論
機器學習總結之第一章緒論
http://www.cnblogs.com/kuotian/p/6141728.html
1.2基本術語
特征向量:即示例,反映事件或對象在某方面的性質。例如,西瓜的色澤,敲聲。
屬性:例如 青綠 烏黑 清脆。
數據集:例如(色澤=青綠,根蒂=蜷縮,敲聲=濁響),(色澤=淺白,根蒂=硬挺,敲聲=清脆),(色澤=烏黑,根蒂=稍蜷,敲聲=沈悶)……
例如,D = {X1,X2,……,Xm}表示包含m個示例的數據集。
Xi = (xi1;xi2;……;xid)每個示例有d個屬性表述。
標記:預測結果信息,例如((色澤=青綠,根蒂=蜷縮,敲聲=濁響),好瓜)。好瓜則為標記。
標記的集合,亦稱:標記空間,輸出空間。
樣例:擁有標記信息的示例。用(xi,yi)表示樣例。
分類:預測是離散值。例如:好瓜,壞瓜。
回歸:預測的是連續值。例如:西瓜的成熟度0.89,0.37。輸出空間y=R(實數集)
二分類:分正類,反類。樣本空間--->輸出空間 輸出空間 = {+1,-1} 或{0,1}
多分類:|輸出空間y|>2
聚類:分成若幹組
監督學習:回歸,分類。
無監督學習:聚類。
獨立同分布:樣本服從一個未知的分布,獲得的每個樣本呢都是獨立的從這個分布上采樣獲得的。
1.3假設空間
歸納學習:廣義--->從樣例中學習
狹義:從訓練數據中學得概念。
概念學習:(色澤=?)^(根蒂=?)^(敲聲=?)
假設空間:若色澤,根蒂,敲聲,各有3種可能取值。
假設空間大小規模:4*4*4+1=65;3+1=4 的兩個加1都是是通配符的情況。
對假設空間自頂向下搜索,即訓練。
版本空間:多個假設與訓練集一致,即存在著一個與訓練集一致的假設集合。
1.4歸納偏好
我的理解:當在現有的模型中,出現新的樣本,既可以歸為正類,也可以歸為反類。我們設定一個優先級,根據這個偏好去歸納。
奧卡姆剃刀:若有多個假設與觀察一致,選最簡單的那個。例如曲線A的描述方程要比B簡單的多。自然偏好A。
此時剃刀不適用。
假設樣本空間和假設空間都是離散的.令代表算法基於訓練數據X產生假設h的概率,再令f代表我們學習的真實目標函數。的”訓練集外誤差”,即在訓練集外的所有樣本上的誤差為
上面式中所有可能性之和自然是為1。
在問題出現的機會相同,所有問題同等重要,對於任意兩個學習算法,其總誤差相等,期望性能相同。
脫離具體問題談算法的好壞無意義。
機器學習總結之第一章緒論