周誌華《機器學習》筆記(一)緒論
第一章 緒論
1、數據集(data set):機器學習數據的集合;
2、示例/樣本(instance/sample):每條數據描述了一個對象的信息,該對象稱之為示例,一般用x表示;
3、屬性(attribute):數據描述的樣本在某些方面的性質;
4、樣本空間(sample space):樣本張成的空間,又稱“屬性空間”或者“輸入空間”;
5、假設(hypothesis):學得模型對應了數據集中某種潛在的規律;
6、真相/真實(ground-truth):數據集本身的潛在的規律。學習的過程是逼近真相的過程;
7、標記(label):有關示例結果的信息,一般用y表示;
8、樣例(example):具有標記信息的示例;
9、標記空間//輸出空間(label space):所有標記的集合構成的空間;
10、分類(classification):一種典型的學習任務,將數據集按一定規律分為若幹類;(監督學習)
11、二分類(binary classification):將數據集分為兩類;
12、回歸(regression):一種典型的學習任務,預測數據集對應的結果;(監督學習)
13、聚類(clustering):無監督學習的一種,將訓練集的數據分為若幹組,每組稱為一個‘簇’,且每個組的情況事先並不知道。
14、泛化能力(generalization):學得模型適用於新樣本的能力;
15、期望:在概率與統計學中是指每次可能結果的概率乘以其結果的總和,反映隨機變量平均值大小。
16、歸納偏好
奧卡姆刀(Occam‘s razor):若有多個假設與觀察一致,則選擇最簡單的那個。
沒有免費午餐定理(No Free Lunch Theorem NFL):無論設計一種的算法如何聰明,另一種算法如何笨拙,他們的期望性相同。因此要談論算法的相對優劣,必須要針對具體的學習問題。
周誌華《機器學習》筆記(一)緒論