學習筆記:西瓜書1--緒論
1、基本術語
資料且是大量的資料是機器學習的根根本。通過將一系列的資料,找到它的規律,那麼就能得到模型或者說一種對映。
資料集data set:資料的集合;
示例instance/樣本sample:每條資料描述了一個物件的資訊,該物件稱之為示例,一般用x表示;
屬性attribute/特徵feature:資料描述的是樣本在某些方面的性質,稱之為屬性;
屬性值attribute value:屬性的取值;
屬性空間attribute space/樣本空間sample space/輸入空間input space:對於一個樣本而言,假如它有n種屬性,則組成了一個n維空間,稱之為樣本空間;
特徵向量feature vector:示例的別名;
學習learning/訓練training:從資料集中學得模型的過程;
訓練資料training data:學習過程中使用的資料;
訓練樣本training sample:訓練資料中的樣本;
訓練集training set:資料集分為兩部分,一部分用於訓練模型;
假設hypothesis:學得的模型對應了資料集中某種潛在的規律,稱之為假設;
真相/真實ground-truth:資料集本身的潛在的規律。學習的過程就是逼近真相的過程;
學習器learner:模型的別稱;
標記label:有關示例結果的信
樣例example:具有標記資訊的示例;
標記空間label space/輸出空間:所有標記的集合構成的空間;
分類classification:一種典型的學習任務,將資料集按一定規律分為若干類,其預測值是離散值;
迴歸regression:一種典型的學習任務,預測資料集對應的結果,其預測值是連續值;
二分類binary classification:分類輸出的結果只有正反兩類;
正類positive class:二分類任務其中的一類資料;
反類negative class:同上;
多分類multi-class classification:多於兩種類別,不能簡單的正反表示,多半是表述其多個特徵;
測試testing:學得模型後,對其進行預測的過程。機器學習是一個反覆的過程,需要重複多次學習、測試、調整,才能得到準確率最高的模型;
測試樣本testing sample:被預測的樣本;
聚類clustering:無監督學習的一種,將訓練集的資料分為若干組,而這些組事先是不知道的;
簇cluster:聚類得到的資料分類;
監督學習supervised learning:訓練資料擁有標記資訊;
無監督學習unsupervised learning:訓練資料沒有標記資訊;
泛化generalization能力:學得模型適用於新樣本的能力。或者說,模型預測資料的精準度;
獨立同分布independent and identically distributed:簡稱i,i,d。假設樣本是從一個很大的資料空間中且服從某種分佈,每個樣本獨立的從其內在分佈上得到的;
2、 假設空間
歸納和演繹:歸納是從特殊到一般的過程(泛化)而演繹是從一般中找到特殊。機器學習就是從特殊到一般的過程。我們的目的是泛化,我們學習的到的模型是需要對新的樣例進行預測的。或者是對未知的認知。學習的過程就是找到規律的過程,假設就是對於的潛在規律;當然規律會有很多種,學習就是找到其最適合的那種。
3、 歸納偏好
我們可能在學習的過程中會找到很多種規律,我們就要從我們得到的很多種規律中找到最合適的那一種。機器學習演算法在學習的過程中,對某種型別的假設的偏好,稱之為歸納偏好。打個不恰當的比喻,我們聽歌,我們的歌單裡面有很多的歌曲,我們總會有比較喜歡的歌曲和最喜歡的歌曲,最喜歡的我們聽的次數會比較多;這的次數可以類比給予的權重。正規術語來說,對於歸納偏好,奧卡姆剃刀作為一般的原則,用於引導演算法確立“正確”的偏好。奧卡姆梯度是自然科學中最常見的法則之一:若有多個假設與觀察一致,則選最簡單的那個。
沒有免費的午餐原則(No Free Lunch Theremo NFL):脫離了實際具體問題的比較是無意義,我們不能簡單說哪個演算法好,我們應該說在某種情況下,哪個演算法比較適合