機器學習中的噪音（機器學習基石）

阿新 • • 發佈：2019-01-31

noise的產生

在機器學習中我們在獨立隨機抽樣的時候會出現一些搞錯的資訊，這些錯誤的資料我們稱之為雜訊（或者噪音 noise），一般可以歸結為一下兩種（以二分為例）：

輸出錯誤：1.同樣的一筆資料會出現兩種不同的評判 2.在同樣的評判下會有不同的後續處理。

輸入錯誤：1.在收集資料的時由於資料來源的隨機性會出現錯誤（比如說，客戶在填資訊的時候出現的誤填）

noise的情況下VC維度的可用性

在有noise的情況下我們的資料不會都來自於我們所求的目標函式而是來自於一個帶有noise的分佈，因此我們的f（x）會在產生資料的時候加上一個波動值後變成了f（x）+noise它具有一定的隨機性。

在這裡需要注意的是我們的資料產生於一個帶有noise的分佈，而我們預測的資料也是產生於一個同樣的分佈。直觀的來看只是一個換了分佈的機器學習過程。所以VC維度能夠在有雜訊的情況下學習

，所有的論述過程同這篇文章機器學習與VC維度。

noise的代價

我們能夠在有雜訊的資料上學習，通過一個帶有雜訊的分佈，當然我們會犯錯。在遇到一個具體的點的時候，我們會查詢這個點在我們的標籤分佈上的概率p（y | x），比如說這個分佈會告訴我們x的概率為0.7，o的概率是0.3那麼我們就會選擇概率較大的那個選項，但是我們有0.3的機率會犯錯，這就是我們的代價。

修正後的機器學習模型圖如下：

最後感謝臺灣大學林軒田老師。

機器學習中的噪音（機器學習基石）

noise的產生在機器學習中我們在獨立隨機抽樣的時候會出現一些搞錯的資訊，這些錯誤的資料我們稱之為雜訊（或者噪音 noise），一般可以歸結為一下兩種（以二分為例）：輸出錯誤：1.同樣的一筆資料會出現兩種不同的評判 2.在同樣的評判下會有不同的後續處理。輸入錯誤：1.在收

初識機器學習-理論篇（慕課筆記）

最好框架要求它的推薦系統利用評估 das 離散什麽是機器學習定義：利用計算機從歷史數據中找出規律，並把這些規律用到對未來不確定場景的決策。從數據中尋找規律尋找規律：概率學統計學統計學方法：抽樣 -> 統計 -> 假設檢驗隨著計算

【機器學習】LDA（線性判別分析）或fisher判別分析

內容目錄：一、LDA/fisher判別分析二、LDA判別分析與PCA對比一、fisher判別分析 1.首先在模式識別課程上學習的是fisher判別，LDA概念是看川大同學寫的500問接觸的，兩者是一樣的東西。 2推薦：深度學習500問 github連結形式是問答形式，初學者概念

機器學習系列文章（監督學習）：迴歸

在機器學習領域，最神奇的模型當屬迴歸模型，迴歸模型也是非專業人員一談機器學習就能無意涉及到的內容。在這裡，筆者先談談當前資訊學科被無良媒體誇大報道賺取點選率關注度的商業行為。不知何時起，國民自負的以為手裡拿著手機，包裡揹著筆記本就以為掌握了資訊時代發展的最前沿資訊。這種不理性

機器學習面試總結（第三篇）

9、整合學習大致分類？通俗理解怎樣才能提高整合學習的效能？ 10、Booststrap sampling需要解決的問題？Booststrap sampling的思想？Bagging的基本思想？從偏差方差角度解釋bagging？ 11、隨機森林RandomForest的思想？RF與bagg

機器學習學習筆記1（Ng課程cs229）

什麼是機器學習作為機器學習領域的先驅，Arthur Samuel在 IBM Journal of Research and Development期刊上發表了一篇名為《Some Studies in Machine Learning Using the Gam

Tensorflow MNIST機器學習入門程式碼（直接編譯執行）

廢話不多說，直接上程式碼,複製到Spyder，編譯執行。 #設定程式碼如下，可以避免下載input_data.py from tensorflow.examples.tutorials.mnist import input_data mnist = input_data.r

機器學習實戰——SVD（奇異值分解）

與PCA一樣的學習過程，在學習SVD時同樣補習了很多的基礎知識，現在已經大致知道了PCA的應用原理，SVD個人感覺相對要難一點，但主要步驟還是能勉強理解，所以這裡將書本上的知識和個人的理解做一個記錄。主要關於（SVD原理、降維公式、重構原矩陣、SVD的兩個實際應用），當然矩陣

聊聊機器學習中的無監督學習

機器學習分為監督式機器學習、無監督式機器學習和半監督式機器學習。其劃分的標準是訓練樣本是否包含人為標註的結果。(1)監督式機器學習：從給定的訓練資料集中學習出一個函式，當新的資料到來時，可以根據這個函式預測結果。監督學習的訓練集要求是包括輸入和輸出，也可以說是特徵和目標。訓練

【機器學習】LFM（Latent Factor Model）

LFM（Latent Factor Model）參考了[Key_Ky部落格](%28http://www.cnblogs.com/Key-Ky/p/3579363.html%29)的潛在矩陣分解的

機器學習中的有監督學習，無監督學習，半監督學習

3、監督式學習有兩種形態的模型。最一般的，監督式學習產生一個全域模型，會將輸入物件對應到預期輸出。而另一種，則是將這種對應實作在一個區域模型。（如案例推論及最近鄰居法）。為了解決一個給定的監督式學習的問題（手寫辨識），必須考慮以下步驟： 1）決定訓練資料的範例的形態。在做其它事前，工程師應決定要使用哪種資料為

模式識別/機器學習百題（含大部分答案）

一、概論 1、簡述模式的概念和它的直觀特性，解釋什麼是模式識別，同時繪出模式識別系統的組成框圖，並說明各部分的主要功能特性。對於存在於時間和空間中，可觀察的物體，如果我們可以區分它們是否相同或相似，都可以稱之為“模式”（或“模式類”）。模式所指的不

機器學習常用演算法（LDA,CNN,LR）原理簡述

1.LDA LDA是一種三層貝葉斯模型，三層分別為：文件層、主題層和詞層。該模型基於如下假設：1）整個文件集合中存在k個互相獨立的主題；2）每一個主題是詞上的多項分佈；3）每一個文件由k個主題隨機混合組成；4）每一個文件是k個主題上的多項分佈；5）每一個文件的主題概率分佈的

《機器學習》學習第二天（程式碼學習及其分析）

（一） import pandas as pd from sklearn.linear_model import LogisticRegression from sklearn.feature_extraction.text import CountVectorizer 1.匯入pandas

機器學習-最近鄰（KNN，RNN）

最近鄰概述基於最近鄰的監督學習方法分兩類：分類，針對的是具有離散標籤的資料;迴歸，針對的是具有連續標籤的資料基於最近鄰的無監督學習方法用於聚類分析。最近鄰方法原理是從訓練樣本中找到與查詢點在距離上最近的預定數量或範圍的多個點，然後依據這些點來預測查詢點的標籤。從訓練樣本中找出

機器學習中的有監督學習，無監督學習，半監督學習的區別

在機器學習(Machine learning)領域，主要有三類不同的學習方法：監督學習(Supervised learning)、非監督學習(Unsupervised learning)、半監督學習(Semi-supervised learning)，監督學

機器學習中的矩陣方法(附錄A）：病態矩陣與條件數

1. 病態系統現在有線性系統： Ax = b，解方程很容易得到解為： x1 = -100, x2 = -200. 如果在樣本採集時存在一個微小的誤差，比如，將 A 矩陣的係數 400 改變成 401：則得到一個截然不同的解： x1 = 40000, x2 = 79800. 當解集

機器學習->監督學習->線性迴歸（LASSO,Ridge,SGD）

本篇博文主要總結線性迴歸，線性迴歸雖然簡單，但是卻是很重要，我將沿著以下幾個主題總結最小二乘法使用極大似然估計來解釋最小二乘的解析式的求解過程線性迴歸的複雜度懲罰因子（LASSO，Ridge）梯度下降法實戰最小二乘法線性迴歸,線性是

機器學習實戰——PCA（主成分分析）

本章關於PCA的程式碼雖少，但涉及到的知識卻很多，由於數學知識比較淺薄，所以在看這章時提前查詢資料複習了很多的概率論和統計學知識和python基礎知識，這裡記錄的很多都是關於PCA的相關知識或理論（例如：特徵向量、協方差矩陣等），由於部分知識涉及較多，講的有點詳細所以文章篇幅

機器學習西瓜書（周志華）學習筆記（1）-緒論

基本術語資料集（data set）：一組記錄的集合。例如：（色澤=青綠；根蒂=稍蜷；敲聲=沉悶）。樣本（sample）：資料集中的每條記錄，它是關於一個事件或物件的描述。又稱示例（instance）。例如：色澤=青綠。屬性（attribute）：反映事件或物件在某

機器學習中的噪音（機器學習基石）

相關推薦