機器學習入門基本概念
機器學習基本概念
資料集(data set)
示例(instance)
屬性(attribute),又稱特徵(feature)
樣本空間(sample space)
特徵向量(feature vector)
維數(dimensionality)
標記(label)
學習(learning)
訓練資料(training data)
迴歸(regression)
如果預測的是連續值,例如預測西瓜的成熟度 ,它必然是個大於0的小數值,比如成熟度為0.9,0.75,抑或是根據房屋面積,使用年限兩個特徵預測某個房屋的價值,類似這種預測稱為迴歸。迴歸有些不好理解,可以理解為擬合吧,根據已有資料集,得到一條曲線f,然後再來一個Xm,帶到 f 中,得到ym 。
分類(classification)
如果我們要預測的是離散值,等於0,1,2,3等這類離散值,例如 好瓜,壞瓜,稱此類學習任務為分類。如果分類的結果為兩類,又稱此分類為二分類,通常稱其中一個為正類(positive class),另一個為反類(negative class)。它還有一個很奇怪的名字,叫邏輯迴歸,雖然是帶著迴歸二字,實際是分類,注意此處。
聚類(clustering)
沒有標記的記錄集,並且我們還想學習這類資料集,比如想從裡頭挖出點有用的東西來。然後我們根據某些特徵和演算法將訓練中的西瓜分成若干組,自動形成了幾簇,這些簇可能對應一些潛在的概念,比如淺色瓜,深色瓜,本地瓜,這些概念我們都是事先不知道的。
監督學習(supervised learning)
帶有標記資訊的,迴歸和分類屬於。
非監督學習(unsupervised learning)
無標記資訊的,聚類屬於。
泛化能力(generalization):
學得的模型用於新樣本的能力,是非常重要的能力。
引起泛化能力不足的一個原因是過擬合,過擬合導致在測試集上表現非常好,但是在新來的資料集上表現非常差。
歸納偏好(inductive bias)
歸納偏好(inductive bias),機器學習演算法在學習過程中對某種型別假設的偏好。
任何一個有效的機器學習演算法必有其歸納偏好,否則它將被假設空間中看似在訓練集上等效的假設所迷惑,而無法生成確定的學習結果,這也是機器學習中非常重要的概念,舉例說明。