臺大機器學習聽課筆記---Bagging 7-4

阿新 • • 發佈：2019-02-03

目的：

用同一份資料製造出很多不同的小矩。

用手上的資料生出長的像“新鮮”的資料。

------------------------------------------------------------------------------------------------------------------------------------------

做法：

從手上有限的資料裡去模擬不一樣的資料。

每次取一部分資料出來，作記錄，然後放回。重複以上操作。一種有放回的抽樣方法。

Bagging：bootstrap aggregating的縮寫

PS：Boosting類似Bagging方法，但是Boosting訓練是序列進行的，第k個分類器訓練時關注對前k-1分類器中錯分的文件，即不是隨機取，而是加大取這些文件的概率。

-----------------------------------------------------------------------------------------------------------------------

例項：

Pocket演算法：給pocket不同的資料，會生成不一樣的線。

25條pocket演算法生出來的線----這些線怎麼生成的：把原來的資料作bootstrapping，再丟到pocket演算法裡，每個pocket演算法跑1000輪。

把這25條線合起來，就得到黑色的線---非線性的邊界。

基礎演算法對資料的隨機性比較敏感，則通過Bagging效果會越好。

---------------------------------------------------------------------------------------

FunTime

Q：

從D中取一個子集N，有多大概率取到原集合？

A：3.

臺大機器學習聽課筆記---Bagging 7-4

目的：用同一份資料製造出很多不同的小矩。用手上的資料生出長的像“新鮮”的資料。 ----------------------------------------------------------------------------------------------

聽課筆記（第十一講）：線性分類模型 (臺大機器學習）

在上一講中，我們瞭解到線性迴歸和邏輯斯蒂迴歸一定程度上都可以用於線性二值分類，因為它們對應的錯誤衡量(square error, cross-entropy) 都是“0/1 error” 的上界。1，三個模型的比較1.1 分析Error Function本質上講，線性分類

聽課筆記（第六講）：歸納理論(臺大機器學習）

上一講重點是一些分析機器學習可行性的重要思想和概念，尤其是生長函式(growth function) 和突破點(break point) 的理解。這一講開篇再介紹一個界函式（bounding function）的概念：是指當（最小）突破點為k 時，生長函式m(N) 可能的最大值，記為B(N, k)。顯然，當

斯坦福NG機器學習聽課筆記-推薦系統（recommender system）

推薦系統（recommender system） Problem Formulation: RecommenderSystems:為什麼講它有兩個原因：首先它是一個很重要的機器學習應用方向，在很多公司中佔據了重要作用，像亞馬遜之類網站都是很好的建立推薦系統促進商品銷售。其次推薦系

臺大林軒田機器學習課程筆記4----訓練 VS. 測試

引言上一篇講到了在有限的hypotheses下，學習錯誤的發生率，即E_in與E_out不同的概率邊界，本篇將會探討在infinite hypotheses情況下的概率邊界。線的有效數字（Effective Number of Lines）我們先將學習劃分為兩個核心的問題

臺大林軒田機器學習課程筆記3----機器學習的可行性

引例先引入一個矛盾問題：圖3.1 圖案學習問題這是一道推理題，根據第一行和第二行圖形的規律分別輸出-1和+1，然後通過上述規則學習推理出第三行圖形的輸出。每個人通過學習所獲得的答案是會不一致的，例如通過對稱的規律可以得到第三行的圖形f=+1，而如果通過圖案

臺大林軒田機器學習課程筆記2----機器學習的分類

1. 根據輸出集合二分類根據輸出空間，二分類的輸出結果只有兩種，即y={-1,1}，具體的應用包括： *信用卡申請問題：Client Data=>Accept or Deny 郵件分類問題：Email Text=>Rubbish or Not 病人生病問

臺大林軒田機器學習課程筆記----機器學習初探及PLA演算法

機器學習初探 1、什麼是機器學習學習指的是一個人在觀察事物的過程中所提煉出的技能，相比於學習，機器學習指的就是讓計算機在一堆資料中通過觀察獲得某些經驗（即數學模型），從而提升某些方面（例如推薦系統的精度）的效能（可測量的）。 2、機器學習使用的條件需要有規則可以學習有事先準

機器學習基石筆記-Lecture 5-7 VC dimension

func contain containe attach 一個數實的 man 分享 alt 為了引出VC維做了很長的鋪墊。。VC維：用來描述假設空間的表達能力。第四節講到對有限的假設空間，只要N足夠大，不管A如何選g，訓練數據如何選取，g的訓練錯誤率和真實的錯誤率都

《機器學習》筆記--4 整合學習boosting and bagging

Boosting 特點：個體學習器之間存在強依賴關係、必須序列生成的方法。關注偏差的降低。方法：先從初始訓練集選練出一個弱學習器，再根據弱學習器的表現進行樣本分佈的調整，提高那些被錯誤學習的樣本的權值，降低那些被正確學習的樣本的權值，然後繼續訓練下一個弱學習器。最後將一

機器學習實戰筆記7(Adaboost)

1：簡單概念描述 Adaboost是一種弱學習演算法到強學習演算法，這裡的弱和強學習演算法，指的當然都是分類器，首先我們需要簡單介紹幾個概念。 1：弱學習器：在二分情況下弱分類器的錯誤率會低於50%。其實任意的分類器都可以做為弱分類器，比如之前介紹的KNN、決

機器學習基石筆記-Lecture 10 Logistic regression

pan wiki app 方向 resource 註意實現 comment sce soft binary classification的概念：軟二分類，不直接化為-1、1，而是給出一個概率值。目標函數是一個概率值，但是拿到的data中y只有0、1（或者-1、1），可以

機器學習基石筆記-Lecture 9 Linear regression

空間 -i 結果 thumb src 9.png http regress containe 線性回歸的任務是對於一個輸入，給出輸出的實數，保證和真實輸出相差越小越好。因為假設空間是線性的，所以最後的g會是直線或者平面。通常的誤差衡量方法是使用平方誤差接下來的問題是

機器學習基石筆記-Lecture 4 Learning is possible

odi ima ffd containe 概率 count lin comm learning hoeffding 不等式說明了在樣本量足夠大時，抽樣估計能夠接近真實值。類比到ml中，對給定的一個假設空間中的h, 它在整個樣本空間中的表現可以由在部分樣本點上的表現來

機器學習基石筆記-Lecture 3 Types of learning

mage 針對也有 tac nts 反饋機器學習 ear odi 介紹了機器學習中的幾類問題劃分。半監督學習能夠避免標記成本昂貴的問題。強化學習，可以看做是從反饋機制中來學習。在線學習，數據一個接一個地產生並交給算法模型線上叠代。主動學習，機器能

機器學習技法筆記-Lecture 13 Deep learning

需要 clas 操作 -1 變換 png image cati fun 一些挑戰：網絡結構的選擇。CNN的想法是對鄰近的輸入，有著相同的weight。模型復雜度。最優化的初始點選擇。pre-training 計算復雜度。包含pre-training的DL框架

Andrew Ng機器學習課程筆記（四）之神經網絡

【機器學習基石筆記】一、綜述

model 但是目標學習 imp 選擇處理定義條件課程定位：註重基礎、故事性機器學習定義： data - Algo - improve 機器學習使用條件 1、有優化的目標，可量化的。 2、規則不容易寫下來，需要學習。 3、要有數據一個可能的推薦

【機器學習基石筆記】二、感知機

證明機器學習 sign 線性可分缺點學習犯錯 nbsp 錯誤感知機算法： 1、首先找到點，使得sign(wt * xt) != yt，　　那麽如果yt = 1，說明wt和xt呈負角度，wt+1 = wt + xt能令wt偏向正角度。　　如果yt = -1, 說

【機器學習基石筆記】三、不同類型的機器學習

質數一個非監督輸入編號不同象棋按順序 pla 一、不同的output 1、二分類 2、多分類 3、回歸問題 4、structured learn: 從一個句子 -> 句子每個詞的詞性。　　輸出是一個結構化的東西。　　例子：蛋白質數據 ->

臺大機器學習聽課筆記---Bagging 7-4

相關推薦