1. 程式人生 > >機器學習-監督學習概念

機器學習-監督學習概念

監督學習 Supervised learning

    讓我們通過討論幾個監督學習問題開始,假設我們有一個關於俄勒岡州波特蘭市的47座房子的居住面積和價格的一組資料,如下所示:

part1-0.png

我們把資料畫成圖,如下:

part1-1.png

    給出像這樣的資料,我們如何能學習預測波特蘭市其他房子的價錢呢,也就是得到一個居住面積作為輸入引數的函式?

為將來使用,我們定義如下符號:

    X(i) 代表輸入變數(比如房子的居住面積),或者叫做輸入引數。

    y(i)代表輸出,或者目標變數,比如我們將要預測的價格。

    資料對 (x(i),y(i)),被稱為訓練樣本。

    資料集{(x(i),y(i));i=1,…,m}:我們用來學習的m個訓練樣本,我們稱為訓練集。注意符號中的上標”(i)”僅代表訓練樣本的索引,並不是取冪計算。我們用大X代表輸入值範圍空間,用Y代表輸出值範圍空間。在這個例子中X=Y=R

    為了稍微正式一點地描述監督學習演算法,我們的目標是,給定一個訓練集,來學習一個函式h:XàY,也就是h(x)對於y的響應值是一個好的預測者。由於歷史原因,這個函式h被稱為一個假設,如下圖,這個過程就像這樣:

part1-2.png

迴歸問題:將要預測的值是連續的,比如我們所說的房子的例子,我們稱這樣的問題是迴歸問題。

分類問題:將要預測的y值僅僅是幾個離散的值(比如給出面積,預測一個住處是一所住宅還是公寓),我們把這類學習問題叫做分類問題。