機器學習01
對於一組對象的數據,將其的集合按照不同“屬性”,而其對應的值為“屬性值”,由“屬性”所張成的空間稱為“屬性空間”。而一個對象的各個數據在”屬性空間“中為不同坐標軸上的對應”屬性值“,而在”屬性空間“中的對應點所對應的向量就是該對象的”特征向量“。
由在這個”屬性空間“中各個”特征向量“所建立的模型,可以預測後續對象的相應值。
若想要預測離散值,則被稱為”分類“;若想要預測連續值,則被稱為”回歸“。對於只涉及兩個類別的”二分類“,通常稱其中一個為”正類“,另一個為”反類“;對於涉及多個類別的,稱為”多分類“。
學習模型後,試用其進行預測的過程被稱為”測試“,被預測的樣本被稱為”測試樣本"。
對於“聚類”,是指對一組對象進行分組,每組稱為一個“簇”,這些自動形成的簇可能對應一些潛在的概念劃分,有助於了解數據內在規律,更深入地分析數據建立基礎。但是,在“聚類”學習中,實際上的“概念”是事先未知的,且在學習過程中所使用的訓練樣本通常不具備標記信息。
根據訓練數據是否擁有標記信息,可以將學習任務大致劃分為兩大類:“監督學習”和“無監督學習”。分類和回歸是前者的代表,聚類是後者的代表。
機器學習的目標是使學得的模型能較好地適用於“新樣本”,而不僅僅是在訓練樣本上做的好;即使是對於聚類這種無監督學習任務,我們也希望學得的簇劃分能適用於沒在訓練集中出現的樣本。學得模型適用於新樣本的能力被稱為“泛化”。具有強泛化能力的模型能更好地適用於整個樣本空間。所以,為了使我們的模型能具有強泛化能力,我們期望我們的訓練樣本能較好地反映整個樣本空間的特征。如:假設樣本空間中全體樣本服從一個未知的“分布”D,我們獲得的每個樣本都是獨立地從這個分布上采樣獲得的,即“獨立同分布”。一般而言,訓練樣本越多,我們得到的關於D的信息越多,就越可能通過學習獲得具有強泛化能力的模型。
機器學習01