機器學習中ground truth的解釋

阿新 • • 發佈：2018-12-15

機器學習包括有監督學習(supervised learning)，無監督學習(unsupervised learning)，和半監督學習（semi-supervised learning）.

在有監督學習中，資料是有標註的，以(x, t)的形式出現，其中x是輸入資料，t是標註.正確的t標註是ground truth，錯誤的標記則不是。（也有人將所有標註資料都叫做ground truth）

由模型函式的資料則是由(x, y)的形式出現的。其中x為之前的輸入資料，y為模型預測的值。

標註會和模型預測的結果作比較。在損失函式(loss function / error function)中會將y 和 t 作比較，從而計算損耗(loss / error)。比如在最小方差中：

\frac{1}{2m} \sum_{i=1}^{m} (y - t)^2

因此如果標註資料不是ground truth，那麼loss的計算將會產生誤差，從而影響到模型質量。

比如輸入三維，判斷是否性感：

錯誤的資料

標註資料1 ( (84,62,86) , 1)，其中x =(84,62,86), t = 1 。標註資料2 ( (84,162,86) , 1)，其中x =(84,162,86), t = 1 。

這裡標註資料1是ground truth，而標註資料2不是。

預測資料1 y = -1 預測資料2 y = -1

Loss = \frac{1}{2\times 2} ((-1-1)^2 + (-1-1)^2) = 2

正確的資料

標註資料1 ( (84,62,86) , 1)，其中x =(84,62,86), t = 1 。標註資料2 ( (84,162,86) , 1)，其中x =(84,162,86), t = -1 。（改為ground truth）

這裡標註資料1和2都是ground truth。

預測資料1 y = -1 預測資料2 y = -1

Loss = \frac{1}{2\times 2} ((-1-1)^2 + (-1+1)^2) = 1

由於使用錯誤的資料，對模型的估計比實際要糟糕。另外，標記資料還被用來更新權重，錯誤標記的資料會導致權重更新錯誤。因此使用高質量的資料是很有必要的。

在半監督學習中，對標記資料也要進行比較

機器學習中ground truth的解釋

機器學習包括有監督學習(supervised learning)，無監督學習(unsupervised learning)，和半監督學習（semi-supervised learning）. 在有監督學習中，資料是有標註的，以(x, t)的形式出現，其中x是輸

機器學習中一些方向以及方法的大體解釋

子空間學習：subspace learning (1) 子空間學習是指通過投影實現高維特徵向低維空間的對映，是一種經典的降維思想。例如人臉影象，如果每幅影象提取出來的特徵是1000維，則每幅影象對應著1000維空間中的一個點。維數太高給計算帶來很多問題，且很多人認為真實有效的人臉影象特徵並

機器學習中L1L2規則化詳解（先驗及稀疏性解釋）

（作者：陳玓玏） 1、為什麼要正則化? 知乎上有個兄弟說得對（https://www.zhihu.com/question/20924039 這個問題下Stark Einstein的回答），不應該說是正則化，應該說是規則化，也就是說，我們原來是在完全沒有任何先

【通俗易懂】機器學習中 L1 和 L2 正則化的直觀解釋

機器學習中，如果引數過多，模型過於複雜，容易造成過擬合（overfit）。即模型在訓練樣本資料上表現的很好，但在實際測試樣本上表現的較差，不具備良好的泛化能力。為了避免過擬合，最常用的一種方法是使用使用正則化，例如 L1 和 L2 正則化。但是，正則化項是如

機器學習中目標函式、損失函式以及正則項的通俗解釋

目錄：前言： 1、什麼是目標函式？定義是：指所關心的目標與相關的因素的函式關係。舉個例子，假如我們想要預測公司樓下手抓餅店明天能賣多少張手抓餅，已知過去10天每天賣多少，以及每天的天氣情況，是否有節假日，和手抓餅店老闆和老闆娘的感情狀況，

機器學習中的回歸理解

機器學習中的線性模型理解機器學習中的類別均衡問題？分為類別平衡問題和類別不平衡問題類別平衡問題：可以采用回歸類別不平衡問題：可以采用在縮放針對類別的回歸問題有線性回歸：非線性回本文出自 “簡答生活” 博客，謝絕轉載！機器學習中的回歸理解

機器學習中的範數規則化之（一）L0、L1與L2範數

[0 證明基本上復雜度所有 img 方法風險機器學習機器學習中的範數規則化之（一）L0、L1與L2範數 [email protected]/* */ http://blog.csdn.net/zouxy09 轉自：http://blog.csdn.n

專家坐堂：機器學習中對核函數的理解

wechat size 學習 blank weixin itl cti title redirect 專家坐堂：機器學習中對核函數的理解專家坐堂：機器學習中對核函數的理解

機器學習中防止過擬合方法

從數據 tro 輸出效果沒有 imagenet neu 效率公式過擬合 ??在進行數據挖掘或者機器學習模型建立的時候，因為在統計學習中，假設數據滿足獨立同分布，即當前已產生的數據可以對未來的數據進行推測與模擬，因此都是使用歷史數據建立模型，即使用已經產生的數據去訓練

關於機器學習中一般線性回歸的補充

機器學習線性回歸嶺回歸在之前的文章中，筆者給出了關於最小二乘法相關公式的整體推導過程，最小二乘法本身除了可以利用數據進行相關參數的擬合（主要是系數和偏置），而且作為分類問題中最為簡單的模型也有著重要作用，我們也可以將其稱作最為簡單的線性回歸模型（以後需要涉及到支持向量機的問題，即Supp

關於機器學習中數據降維的相關方法

機器學習降維 svd 字典學習前言在之前一些文章的討論中，通過一些例子我們可以發現（主要是關於決策樹或隨機森林的相關內容）其實並不是樣本的所有屬性可能都是那麽得重要，只要不是同等重要，特別是在分類問題上可能可以去除一些屬性或特征（一般決策樹需要進行剪枝，其實剪枝的原因就在於此）依然能夠得到較好的結果（盡

關於機器學習中LASSO回歸的相關補充

lasso回歸軟閾收縮算子 fist算法在之前的相關文章中筆者給出了一般回歸的補充，即嶺回歸和LASSO回歸，它們都是為了解決在回歸過程中的過擬合問題，其具體解決方案就分別是在目標函數後增加2範數和1範數以限定參數的表現，對於嶺回歸而言，由於2使用範數的原因，這個目標函數仍是可導的，但對於LASSO回

關於機器學習中支持向量機相關問題

機器學習支持向量機 svm 線性感知機核方法前言在機器學習中，分類問題占了很大一部分，而對於分類問題的處理有很多方法，比如決策樹、隨機森林、樸素貝葉斯、前饋神經網絡等等；而最為常見的分類需求一般是二分類問題，即將樣本分為兩個集合，然後通過學習某些參數，對新的輸入進行識別並劃分到正確的類別中。在

機器學習中的正則化

道理 lazy 算法 htbox 而且有趣的文章很難直接作者：陶輕松鏈接：https://www.zhihu.com/question/20924039/answer/131421690來源：知乎著作權歸作者所有。商業轉載請聯系作者獲得授權，非商業轉載請註明出處。

關於機器學習中的一些常用方法的補充

機器學習 k近鄰 apriori pagerank前言機器學習相關算法數量龐大，很難一一窮盡，網上有好事之人也評選了相關所謂十大算法（可能排名不分先後），它們分別是： 1. 決策樹2. 隨機森林算法3. 邏輯回歸4. 支持向量機5. 樸素貝葉斯6

Spark機器學習中ml和mllib中矩陣、向量

int reg index mac matrix 對比判斷 bsp ive 1：Spark ML與Spark MLLIB區別？ Spark MLlib是面向RDD數據抽象的編程工具類庫，現在已經逐漸不再被Spark團隊支持，逐漸轉向Spark ML庫，Spark ML是面

機器學習中如何用篩選器檢測冗余？

images 什麽 log 前三最大兩個學習方法篩選器 size 篩選器試圖在特征叢林中進行清洗，它獨立於後續使用的任何機器學習方法。它基於統計方法找出冗余或無關特征。一般來講，篩選器的工作流所圖：通過使用相關性，很容易看到特征之間的線性關系。這種關系可以用一條直

特征選取2-機器學習中，有哪些特征選擇的工程方法？

fit fun actual 原理歸一化 jpg arr 差異 highlight https://www.zhihu.com/question/28641663 作者：城東鏈接：https://www.zhihu.com/question/28641663/answer

來自仙守博友記錄的hinton教授的本科生課程CSC321-機器學習中的神經網的筆記

into dbn file int 坐標系應用 mini 以及 tle 最近一直在看仙守博友所記錄的筆記 Hinton的CSC321課程（完結，待文字潤色）： 1、lecture1-NN的簡介 2、lecture2-NN結構的主要類型的概述和感知機 3、lecture3

機器學習中特征的處理及選擇

info 連續馬氏距離屬性歐氏距離 src 缺失值最小值 IE 基礎概念特征工程是通過對原始數據的處理和加工，將原始數據屬性通過處理轉換為數據特征的過程，屬性是數據本身具有的維度，特征是數據中所呈現出來的某一種重要的特性，通常是通過屬性的計算，組合或轉換得到的。

機器學習中ground truth的解釋

相關推薦