1. 程式人生 > >4.3.1有監督學習(一)

4.3.1有監督學習(一)

簡介

有監督學習是與無監督學習相對應的概念。它是資料分析中最常見的建模形式。

一句話解釋版本:

有監督學習知道預測的主體,它通過尋找並定義自變數(一堆屬性,X)與因變數(預測目標,Y)之間的關係,以實現通過X預測Y的目的。

資料分析與挖掘體系位置

有監督學習的目的性很強。所以在資料分析與資料探勘中,有監督學習與資料分析的關係更大;無監督學習與資料探勘的關係更大。但是它們都是資料建模領域的知識。

有監督學習在整個資料分析與挖掘體系中的位置如下圖所示。


有監督學習的定義

在有監督學習(Supervised Learning)中,我們的樣本資料中通常包含p種特徵量(features),X1, X2, . . . , Xp。他們有共同的物件(Response),Y。有監督學習的目的簡單而言,就是一句話:用X去預測Y。

舉例來說,我們現在有如下的資料,分別是:身高、體重、每天睡眠時間、每天運動時間、以及壽命。如果我們把壽命看作我們想要預測的物件,那麼壽命就是上面說的物件,即Y。其餘的變數,如身高、體重、每天睡眠時間、每天運動時間就都是特徵量,即X。

那麼,在有監督學習中,我們研究的目的一般就是各種人的基本特徵與壽命之間的關係,即如何通過身高、體重、每天睡眠時間、每天運動時間來預測壽命。

有監督學習會通過數學統計方法,如散點圖、相關係數矩陣、直方圖等等,來尋找身高、體重、每天睡眠時間、每天運動時間與壽命之間的潛在關係。最終儘量準確的通過數學公式方程去定義這種關係。而這些數學公式,就是有監督學習模型。

有監督學習的模型

有監督學習中有預測主體Y。因此,Y有可能是數值型資料,也可能是分型別資料。

依據Y的資料形式不同,有監督學習的模型一般被分為兩大類問題:迴歸問題與分類問題。

迴歸問題

如果被預測的Y取值是連續型的資料,比如銷售額、顧客價值、汽車裡程、耗電量等等,我們把這類問題叫做迴歸問題。

迴歸問題看著簡單誰都會,但是實際上回歸問題還包含其他許多模型。我們最常見、誰都懂、已經不再有逼格的Y=a+bX 其實是迴歸問題中最基礎的一元線性迴歸,其他的迴歸模型大多以一元線性迴歸為原型發展出來。

分類問題

如果被預測的Y取值是分型別的資料,比如是否、有病/沒病、一級/二級/三級等等,我們把這類問題叫做分類問題。其實分類問題與迴歸問題在方法上並沒有太多差異,分類問題的結果仍然是連續的數值,只是我們人為的將某些數值劃分為一個類別,將另一些數值劃分為另一個類別而已。簡而言之,分類問題就是將回歸問題的結果歸整合不同的類別而已。

下圖是有監督學習中應用較為廣泛的幾類模型: