1. 程式人生 > >Google內部培訓過1.8萬人的機器學習速成課

Google內部培訓過1.8萬人的機器學習速成課

什麼是(監督)機器學習?簡而言之,它是以下幾點:
  • ML系統學習如何組合輸入以產生對從未見過的資料的有用預測。
我們來探討基本的機器學習術語。

標籤

一個 標籤是我們預測物品的屬性, 比如變數y在簡單線性迴歸變數。標籤可以是小麥的未來價格,圖片中顯示的動物的種類,音訊剪輯的含義或任何東西。

特徵

一個 特徵是一個輸入變數 -  x簡單線性迴歸中的變數。一個簡單的機器學習專案可能會使用單一功能,而更復雜的機器學習專案可能會使用數百萬個功能,具體如下: {X1,X2,。。。Xñ} 在垃圾郵件檢測器示例中,功能可能包括以下內容:
  • 電子郵件中的文字
  • 寄件人地址
  • 傳送電子郵件的時間
  • 電子郵件包含短語“一個奇怪的把戲”。

例子

一個 例子是資料的特定例項 x。(我們把  X粗體,以表明它是一個載體。)我們分手的例子分為兩類:
  • 標記的例子
  • 未標記的例子
標記的例子包括(多個)特徵和標籤。那是: labeled examples: {features, label}: (x, y) 使用標記的示例來 訓練模型。在我們的垃圾郵件檢測器示例中,標記的示例將是使用者明確標記為“垃圾郵件”或“非垃圾郵件”的單個電子郵件。 例如,下表顯示了來自 包含加利福尼亞州房價資訊的
資料集中的
 5個標記示例:
住房中醫年齡 (功能) totalRooms (功能) totalBedrooms (功能) medianHouseValue (標籤)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500
一個 未標記的例子包含的特徵,但不是標籤,如下:   unlabeled examples: {features, ?}: (x, ?) 一旦我們用標記示例對我們的模型進行了訓練,我們就可以使用該模型來預測未標記示例上的標籤。在垃圾郵件檢測器中,未標記的示例是人類尚未標記的新電子郵件。

模型

模型定義了要素和標籤之間的關係。例如,垃圾郵件檢測模型可能會將某些功能強烈地與“垃圾郵件”相關聯。讓我們強調模型的兩個階段:
  • 訓練意味著創造或學習模型。也就是說,您將顯示標有示例的模型,並使模型逐漸學習特徵與標籤之間的關係。
  • 預測意味著將訓練的模型應用於未標記的例子。也就是說,你使用訓練好的模型進行有用的預測(y')。例如,在推理過程中,您可以預測medianHouseValue新的未標記示例。

迴歸與分類

一個 迴歸模型預測連續值。例如,迴歸模型預測回答如下問題:
  • 加州的房子價值是多少?
  • 使用者點選此廣告的概率是多少?
一個 分類模型預測離散值。例如,分類模型可以做出預測來回答以下問題:
  • 給定的電子郵件是垃圾郵件還是垃圾郵件?
  • 這是一隻狗,一隻貓還是一隻倉鼠的影象?
關鍵術語


檢視原文: http://www.mtcnn.com/?p=109