1. 程式人生 > 其它 >機器學習中的資料

機器學習中的資料

以鳶尾花資料為例:

其中包含四個主要的資訊(萼片(sepal)的長寬、花瓣(petal)的長寬)

根據以上資料大致可以分為三個種類,Iris-Setosa、Iris-Versicolour、Iris-Virginica

其資料的結構大致如下:

現有以下資料為例:

此處使用數字0,1,2在機器學習中分別簡化表示三種類型。

上面示例的資料整體叫資料集(data set),

其中每一行資料都被稱為一個樣本(sample),

除最後一列,每列表達樣本的一個特徵(feature)(例子中有4個特徵),

最後一列,稱為標記(label)

現將所有的特徵表示為矩陣X,將所有標記表示為向量y

那麼第i個樣本行寫作X⁽ ⁱ⁾(稱作特徵向量,一般為列向量)

現將所有特徵向量轉置即可得到整個資料集

第i個樣本的第j個特徵值寫作X⁽ⁱ⁾ⱼ(i為上標,j為下標),

第i個樣本的標記寫作y⁽ⁱ⁾。

樣本資料的本質就是在所有特徵所組成的一個空間中的點,這個空間稱為特徵空間(feature space)

分類任務的本質就是在特徵空間中的切分,下圖為兩維的示例,在高維空間同理。

此外,特徵也可以是抽象的,比如MNIST資料集中的手寫數字,其中每個數字影象中的每一個畫素點都是特徵。

把圈子變小,把語言變乾淨,把成績往上提,把故事往心裡收,現在想要的以後你都會有。