Google機器學習課程筆記之概念--問題構建 (Framing)：機器學習主要術語

阿新 • • 發佈：2019-02-19

什麼是（監督式）機器學習？簡單來說，它的定義如下：

機器學習系統通過學習如何組合輸入資訊來對從未見過的資料做出有用的預測。

下面我們來了解一下機器學習的基本術語。

標籤

在簡單線性迴歸中，標籤是我們要預測的事物，即 y 變數。標籤可以是小麥未來的價格、圖片中顯示的動物品種、音訊剪輯的含義或任何事物。

特徵

在簡單線性迴歸中，特徵是輸入變數，即 x 變數。簡單的機器學習專案可能會使用單個特徵，而比較複雜的機器學習專案可能會使用數百萬個特徵，按如下方式指定：

在垃圾郵件檢測器示例中，特徵可能包括：

電子郵件文字中的字詞
發件人的地址
傳送電子郵件的時段
電子郵件中包含“一種奇怪的把戲”這樣的短語。

樣本

樣本是指資料的特定例項：x。（我們採用粗體 x 表示它是一個向量。）我們將樣本分為以下兩類：

有標籤樣本
無標籤樣本

有標籤樣本同時包含特徵和標籤。即：

labeled examples:{features, label}:(x, y)

我們使用有標籤樣本來訓練模型。在我們的垃圾郵件檢測器示例中，有標籤樣本是使用者明確標記為“垃圾郵件”或“非垃圾郵件”的各個電子郵件。

例如，下表顯示了從包含加利福尼亞州房價資訊的資料集中抽取的 5 個有標籤樣本：

housingMedianAge （特徵）	totalRooms （特徵）	totalBedrooms （特徵）	medianHouseValue （標籤）
15	5612	1283	66900
19	7650	1901	80100
17	720	174	85700
14	1501	337	73400
20	1454	326	65500

無標籤樣本包含特徵，但不包含標籤。即：

unlabeled examples:{features,?}:(x,?)

在使用有標籤樣本訓練了我們的模型之後，我們會使用該模型來預測無標籤樣本的標籤。在垃圾郵件檢測器示例中，無標籤樣本是使用者尚未新增標籤的新電子郵件。

模型

模型定義了特徵與標籤之間的關係。例如，垃圾郵件檢測模型可能會將某些特徵與“垃圾郵件”緊密聯絡起來。我們來重點介紹一下模型生命週期的兩個階段：

訓練表示建立或學習模型。也就是說，您向模型展示有標籤樣本，讓模型逐漸學習特徵與標籤之間的關係。
推斷

表示將訓練後的模型應用於無標籤樣本。也就是說，您使用訓練後的模型來做出有用的預測 (y')。例如，在推斷期間，您可以針對新的無標籤樣本預測 medianHouseValue。

迴歸與分類

迴歸模型可預測連續值。例如，迴歸模型做出的預測可回答如下問題：

加利福尼亞州一棟房產的價值是多少？
使用者點選此廣告的概率是多少？

分類模型可預測離散值。例如，分類模型做出的預測可回答如下問題：

某個指定電子郵件是垃圾郵件還是非垃圾郵件？
這是一張狗、貓還是倉鼠圖片？

Google機器學習課程筆記之概念--問題構建 (Framing)：機器學習主要術語

什麼是（監督式）機器學習？簡單來說，它的定義如下：機器學習系統通過學習如何組合輸入資訊來對從未見過的資料做出有用的預測。下面我們來了解一下機器學習的基本術語。標籤在簡單線性迴歸中，標籤是我們要預測的事物，即 y 變數。標籤可以是小麥未來的價格、圖片中顯示的動物品種、音訊剪輯的

吳恩達深度學習課程筆記之卷積神經網路基本操作詳解

卷積層 CNN中卷積層的作用： CNN中的卷積層，在很多網路結構中會用conv來表示，也就是convolution的縮寫。卷積層在CNN中扮演著很重要的角色——特徵的抽象和提取，這也是CNN區別於傳統的ANN或SVM的重要不同。對於圖片而

Andrew Ng機器學習課程筆記（四）之神經網絡

CS229機器學習課程筆記---監督學習之線性模型

監督學習首先，我們考慮以下資料集，基於此資料集預測房價。可以畫出如下散點圖：定義符號 m — 訓練集樣本總數 x — 輸入變數/輸入特徵 (例，living area) y — 輸出/目標變數（例，price） { (x(i),y(i)) ；i =

【機器學習入門】Andrew NG《Machine Learning》課程筆記之四：分類、邏輯迴歸和過擬合

分類和邏輯迴歸在實際的生活中，會遇到很多二元分類問題(Binary Classification Problem),比如判斷一封郵件是否是垃圾郵件，攝像頭判斷使用者是男是女和一張圖片裡包含的是貓還是狗等等。在有監督的分類問題中，通常使用帶標記(Label

Andrew Ng機器學習課程筆記（十三）之無監督學習之EM演算法

Preface Jensen’s Inequality（Jensen不等式） Expectation-Maximization Algorithm（EM演算法） Jensen’s Inequality 對於凸函式令f(x)f(x)為

Andrew Ng機器學習課程筆記（十二）之無監督學習之K-means聚類演算法

Preface Unsupervised Learning（無監督學習） K-means聚類演算法 Unsupervised Learning 我們以前介紹的所有演算法都是基於有類別標籤的資料集，當我們對於沒有標籤的資料進行分類時，以前的方

Andrew Ng機器學習課程筆記（十六）之無監督學習之因子分析模型與EM演算法

Preface Marginals and Conditionals of Gaussians（高斯分佈的邊緣分佈與條件分佈） Restrictions of ΣΣ（限制協方差矩陣） Factor Analysis（因子分析模型） EM Alg

Andrew NG機器學習課程筆記系列之——Introduction to Machine Learning

引言本系列文章是本人對Andrew NG的機器學習課程的一些筆記，如有錯誤，請讀者以課程為準。在現實生活中，我們每天都可能在不知不覺中使用了各種各樣的機器學習演算法。例如，當你每一次使用 Google 時，它之所以可以執行良好，其中一個重要原因便是由 Google 實

機器學習課程筆記 (1)

something gen 很多可能 sed pos 算法 put down Concept Learning supervised, eager learning target problem: whether something belongs to the tar

斯坦福CS229機器學習課程筆記一：線性迴歸與梯度下降演算法

機器學習三要素機器學習的三要素為：模型、策略、演算法。模型：就是所要學習的條件概率分佈或決策函式。線性迴歸模型策略：按照什麼樣的準則學習或選擇最優的模型。最小化均方誤差，即所謂的 least-squares(在spss裡線性迴歸對應的模組就叫OLS即Ordinary Least Squares)：

吳恩達機器學習課程筆記02——處理房價預測問題（梯度下降演算法詳解）

建議記住的實用符號符號含義 m 樣本數目 x 輸入變數 y 輸出變數/目標變數

吳恩達機器學習課程筆記章節二單變數線性迴歸

1、模型描述 Univariate（One variable）Linear Regression m=訓練樣本的數目，x's=輸入的變數/特徵，y's=輸出變數/目標變數 2、代價函式基本定義： 3、代價函式（一）回顧一下，前面一些定義：簡化的假設函式，theta0=0，得到假

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 10—Advice for applying machine learning

Lecture 10—Advice for applying machine learning 10.1 如何除錯一個機器學習演算法？有多種方案： 1、獲得更多訓練資料；2、嘗試更少特徵；3、嘗試更多特徵；4、嘗試新增多項式特徵；5、減小 λ；6、增大 λ 為了避免一個方案一個方

機器學習課程筆記（2）

分類問題（接1） logistic迴歸中的代價函式：對於原來的迴歸方程， J（θ）=1/m∑1/2（hθ（x）-y）2 與線性迴歸相同，所不同的是線性迴歸中hθ（x）為f（x），logistics中hθ（x）為sigmoid-f（x）我們先設cost（h

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 11—Machine Learning System Design

Lecture 11—Machine Learning System Design 11.1 垃圾郵件分類本章中用一個實際例子：垃圾郵件Spam的分類來描述機器學習系統設計方法。首先來看兩封郵件，左邊是一封垃圾郵件Spam，右邊是一封非垃圾郵件Non-Spam：垃圾郵件有很多features。如果我

Stanford機器學習課程筆記4-Kmeans與高斯混合模型

這一部分屬於無監督學習的內容，無監督學習內容主要包括：Kmeans聚類演算法、高斯混合模型及EM演算法、Factor Analysis、PCA、ICA等。本文是Kmeans聚類演算法、高斯混合模型的筆記，EM演算法是適用於存在latent/hidden變數的通用演算法，高斯混

吳恩達機器學習課程筆記——第二週

1. 多變數線性迴歸(Linear Regression with Multiple Variables) 也稱為多元線性迴歸，一元就是一個變數，多元就是多個變數，在這裡也可以叫做多個特徵 1.1 多維特徵(Multiple Features) 之前，

臺大林軒田機器學習課程筆記4----訓練 VS. 測試

引言上一篇講到了在有限的hypotheses下，學習錯誤的發生率，即E_in與E_out不同的概率邊界，本篇將會探討在infinite hypotheses情況下的概率邊界。線的有效數字（Effective Number of Lines）我們先將學習劃分為兩個核心的問題

臺大林軒田機器學習課程筆記3----機器學習的可行性

引例先引入一個矛盾問題：圖3.1 圖案學習問題這是一道推理題，根據第一行和第二行圖形的規律分別輸出-1和+1，然後通過上述規則學習推理出第三行圖形的輸出。每個人通過學習所獲得的答案是會不一致的，例如通過對稱的規律可以得到第三行的圖形f=+1，而如果通過圖案

Google機器學習課程筆記之概念--問題構建 (Framing)：機器學習主要術語

樣本

模型

迴歸與分類

相關推薦