1. 程式人生 > >西瓜書閱讀筆記1

西瓜書閱讀筆記1

什麼是機器學習?

 

根據已有的知識經驗,形成模型。並根據模型來感知未知的新事物的過程。

 

機器學習術語:

身高 體重 膚色
180 70
175 62
185 80

 

樣本:上面表格中,每一行就是一個樣本。一個樣本包含了一種事物的完整屬性,這些屬性不重複。

資料集:所有的樣本的總和,稱為資料集。

特徵:例如,身高就是一種特徵,膚色也是一種特徵。也可以稱作屬性。

特徵值:具體對應特徵上的特徵值。

訓練資料:用於生成模型的資料就是訓練資料。

訓練集:所有訓練資料的總和構成訓練集。

學習、訓練、建模:通過資料生成模型的過程叫做訓練。

標記:對於一個樣本,給他一個稱謂。或者打個標籤。這個標籤就是標記。這個標籤可以是:好人或壞人。也可以是連續值:工資2500元。。。

迴歸問題:對於標籤值是不可數的連續值的型別,屬於迴歸問題。如預測工資。屬於監督學習

分類問題:對於標籤值是有限的離散型別的,屬於分類問題。如區分好人壞人。屬於監督學習

聚類:不涉及到預設標籤的問題,讓機器自己去發現不同樣本之間的相似性,根據相似性劃分類別。相似度高的劃分為同一類。屬於無監督學習

泛化能力:我們想要達到的目的是根據已有的資料獲取資料的模型或者模式。根據已有的模型對未知資料進行處理(迴歸、分類或許聚類),具有較好的泛化能力指的是資料處理能力較高。

一般:訓練資料量越大,模型的泛化能力越高。

 

歸納偏好原則

 

奧卡姆剃刀:若多個假設與觀察一致,則選擇最簡單的那個。

當然,具體問題具體分析,任何演算法不能說自己是最好的。沒有最好的演算法,只有最合適的。