1. 程式人生 > >Google機器學習課程筆記之概念--問題構建 (Framing):機器學習主要術語

Google機器學習課程筆記之概念--問題構建 (Framing):機器學習主要術語

什麼是(監督式)機器學習?簡單來說,它的定義如下:

  • 機器學習系統通過學習如何組合輸入資訊來對從未見過的資料做出有用的預測。

下面我們來了解一下機器學習的基本術語。

標籤

在簡單線性迴歸中,標籤是我們要預測的事物,即 y 變數。標籤可以是小麥未來的價格、圖片中顯示的動物品種、音訊剪輯的含義或任何事物。

特徵

在簡單線性迴歸中,特徵是輸入變數,即 x 變數。簡單的機器學習專案可能會使用單個特徵,而比較複雜的機器學習專案可能會使用數百萬個特徵,按如下方式指定:

{x1,x2,...xN

在垃圾郵件檢測器示例中,特徵可能包括:

  • 電子郵件文字中的字詞
  • 發件人的地址
  • 傳送電子郵件的時段
  • 電子郵件中包含“一種奇怪的把戲”這樣的短語。

樣本

樣本是指資料的特定例項:x。(我們採用粗體 x 表示它是一個向量。)我們將樣本分為以下兩類:

  • 有標籤樣本
  • 無標籤樣本

有標籤樣本同時包含特徵和標籤。即:

  labeled examples:{features, label}:(x, y)

我們使用有標籤樣本來訓練模型。在我們的垃圾郵件檢測器示例中,有標籤樣本是使用者明確標記為“垃圾郵件”或“非垃圾郵件”的各個電子郵件。

例如,下表顯示了從包含加利福尼亞州房價資訊的資料集中抽取的 5 個有標籤樣本:

housingMedianAge
(特徵)
totalRooms
(特徵)
totalBedrooms
(特徵)
medianHouseValue
(標籤)
155612128366900
197650190180100
1772017485700
14150133773400
20145432665500

無標籤樣本包含特徵,但不包含標籤。即:

  unlabeled examples:{features,?}:(x,?)

在使用有標籤樣本訓練了我們的模型之後,我們會使用該模型來預測無標籤樣本的標籤。在垃圾郵件檢測器示例中,無標籤樣本是使用者尚未新增標籤的新電子郵件。

模型

模型定義了特徵與標籤之間的關係。例如,垃圾郵件檢測模型可能會將某些特徵與“垃圾郵件”緊密聯絡起來。我們來重點介紹一下模型生命週期的兩個階段:

  • 訓練表示建立或學習模型。也就是說,您向模型展示有標籤樣本,讓模型逐漸學習特徵與標籤之間的關係。

  • 推斷

    表示將訓練後的模型應用於無標籤樣本。也就是說,您使用訓練後的模型來做出有用的預測 (y')。例如,在推斷期間,您可以針對新的無標籤樣本預測 medianHouseValue

迴歸與分類

迴歸模型可預測連續值。例如,迴歸模型做出的預測可回答如下問題:

  • 加利福尼亞州一棟房產的價值是多少?

  • 使用者點選此廣告的概率是多少?

分類模型可預測離散值。例如,分類模型做出的預測可回答如下問題:

  • 某個指定電子郵件是垃圾郵件還是非垃圾郵件?

  • 這是一張狗、貓還是倉鼠圖片?