西瓜書閱讀筆記1
阿新 • • 發佈:2018-12-26
什麼是機器學習?
根據已有的知識經驗,形成模型。並根據模型來感知未知的新事物的過程。
機器學習術語:
身高 | 體重 | 膚色 |
180 | 70 | 黃 |
175 | 62 | 白 |
185 | 80 | 黑 |
樣本:上面表格中,每一行就是一個樣本。一個樣本包含了一種事物的完整屬性,這些屬性不重複。
資料集:所有的樣本的總和,稱為資料集。
特徵:例如,身高就是一種特徵,膚色也是一種特徵。也可以稱作屬性。
特徵值:具體對應特徵上的特徵值。
訓練資料:用於生成模型的資料就是訓練資料。
訓練集:所有訓練資料的總和構成訓練集。
學習、訓練、建模:通過資料生成模型的過程叫做訓練。
標記:對於一個樣本,給他一個稱謂。或者打個標籤。這個標籤就是標記。這個標籤可以是:好人或壞人。也可以是連續值:工資2500元。。。
迴歸問題:對於標籤值是不可數的連續值的型別,屬於迴歸問題。如預測工資。屬於監督學習
分類問題:對於標籤值是有限的離散型別的,屬於分類問題。如區分好人壞人。屬於監督學習
聚類:不涉及到預設標籤的問題,讓機器自己去發現不同樣本之間的相似性,根據相似性劃分類別。相似度高的劃分為同一類。屬於無監督學習
泛化能力:我們想要達到的目的是根據已有的資料獲取資料的模型或者模式。根據已有的模型對未知資料進行處理(迴歸、分類或許聚類),具有較好的泛化能力指的是資料處理能力較高。
一般:訓練資料量越大,模型的泛化能力越高。
歸納偏好原則
奧卡姆剃刀:若多個假設與觀察一致,則選擇最簡單的那個。
當然,具體問題具體分析,任何演算法不能說自己是最好的。沒有最好的演算法,只有最合適的。