29. 將訓練錯誤率用圖形繪製出來 翻譯自 吳恩達新書-Machine Learning Yearning
你的開發/測試錯誤率應該會隨著訓練樣本數量的增加而減少。但是訓練錯誤率通常會隨著樣本數量的增加而增加。假設你的訓練樣本集中有兩個樣本:一張貓咪圖片和一張非貓咪圖片。這時演算法很容易就會記住這兩個樣本,從而得到0%的訓練錯誤率。即使樣本集中一個甚至兩個都標記錯誤了,演算法也很容易就能記住它們的標籤。
現在假設你的訓練樣本集中有100個樣本。可能還有些樣本標記錯誤了,或者非常模糊,連人都分不清圖片上是不是有貓。此時或許模型還是能記住每個樣本對應的標籤,但是此時很難到達100%的準確率了。樣本數量從2個上升到100個,你就會發現訓練準確率在下降了。
最後,假如你的訓練樣本集中有10,000個樣本。這時,演算法就很難擬合這10,000個樣本了,如果樣本集合中,還有些是模稜兩可的或標記錯誤的,那就更難擬合了。因此的演算法會在這個訓練樣本集上表現的更差一些。
讓我們把訓練樣本集也加到之前的圖形中: 你可以看出隨著訓練樣本的增加,藍色曲線代表的訓練錯誤率一直在增加。而且,可以看出,演算法通常在訓練樣本集比在開發樣本集上的表現更好一些:因此紅色曲線代表的開發錯誤率始終在藍色曲線代表的訓練錯誤率上方。
下面一章我們將詳細解釋這個圖形。
相關推薦
29. 將訓練錯誤率用圖形繪製出來 翻譯自 吳恩達新書-Machine Learning Yearning
你的開發/測試錯誤率應該會隨著訓練樣本數量的增加而減少。但是訓練錯誤率通常會隨著樣本數量的增加而增加。假設你的訓練樣本集中有兩個樣本:一張貓咪圖片和一張非貓咪圖片。這時演算法很容易就會記住這兩個樣本,從而得到0%的訓練錯誤率。即使樣本集中一個甚至兩個都標記錯誤
32.學習曲線繪製技巧 翻譯自 吳恩達新書-Machine Learning Yearning
假如你的訓練樣本集非常小,只有100個樣本。你依次隨機抽取10個樣本、20個樣本、30個樣本,每次增加10個樣本依次類推,一直到100個樣本,進行模型訓練,然後把學習曲線繪製出來,你可能會發現,當訓練樣本集很少時,曲線看起來有很多噪音。 當你只隨機選擇10個樣
22.向最優的錯誤率看齊 翻譯自 吳恩達新書-Machine Learning Yearning
在我們的貓咪識別器的例⼦中,最理想的情況是實現⼀個最優的識別器,提供接近於0的錯誤率。如果圖片中有貓,人類幾乎可以100%識別出來;因此,我們也期望機器可以達到同樣的水平。 和貓咪的例子相比,其他的問題相對複雜得多。例設,你正在開發一款語⾳設別系統,但你發現1
吳恩達深度學習筆記(29)-神經網路訓練的方差和偏差分析
這一節我們學習在神經網路學習訓練時出現的結果進行分析,偏差和方差的表現和優化,仔細看好咯~ 偏差,方差(Bias /Variance) 幾乎所有機器學習從業人員都期望深刻理解偏差和方差,這兩個概念易學難精,即使你自己認為已經理解了偏差和方差的基本概念,卻總有一些意想不到的新東西出現。
吳恩達機器學習訓練祕籍整理五十三到五十七章(八)元件分析
第五十三章: 根據元件進行誤差分析 假設你的系統由複雜的機器學習流水線所構建,並且你希望提高該系統的效能,那應該從流水線的哪一部分開始改進呢?你可以通過將誤差歸因於流水線的特定元件,來決定工作的優先順序。 在上圖的流水線中,第一部分是貓檢測器,它能夠檢測出貓,並將它們從影象裁剪出來
吳恩達機器學習訓練祕籍整理四十四到五十二章(七)優化測試和端到端
第四十四章 優化驗證測試 假設你正在構建一個語音識別系統,該系統通過輸入一個音訊片段A,併為每一個可能的輸出句子S計算得分ScoreA(S) 。例如,你可以試著估計 ScoreA(S) = P(S|A) ,表示句子S是正確輸出的轉錄的概率,其中 A 是給定的輸入音訊。
吳恩達機器學習訓練祕籍整理三十六到四十三章(六)訓練資料
第三十六章: 何時在不同的分佈上訓練與測試。 使用者上傳的10000張圖片。網上收集的200000張圖片。使用者上傳的5000張用來做開發集和測試集。205000用來做訓練集。這樣可以讓他們的資料集的分佈儘可能的相同。 第三十七章: 現有100000張使用者上傳的圖片和200000張
吳恩達機器學習訓練祕籍整理三十三到三十五章(五)
第三十三章 為何與人類表現水平進行對比: 許多機器學習系統的設計目的是想要自動化一些人類可以處理得很好的事情,可舉的例子有影象識別、語音識別以及垃圾郵件分類等等。此外,有許多理由表明在處理人類擅長的任務時,構建機器一個學習系統會更加簡單: 1.易於從人為標籤中獲取資料 2.基於人類直
吳恩達機器學習訓練祕籍整理二十八到三十二章(四)學習曲線
第二十八章: 繪製學習曲線。隨著訓練集的增加,錯誤率逐漸的減少。 第二十九章: 繪製訓練誤差曲線。隨著訓練集大小的增加,開發集(和測試集)誤差應該會降低,但你的訓練集誤差往往會同時增加。 第三十章: 高偏差: 隨著我們新增更多的訓練
吳恩達機器學習訓練祕籍整理二十到二十七章(三)
第二十章: 偏差和方差:誤差的兩大來源 你的貓識別器在開發集上的錯誤率是16%,訓練集上的錯誤率是15%。 偏差:在訓練集上的錯誤率。15% 方差:開發集上的表現比訓練集差多少。16%-15%=1% 總誤差 = 偏差+方差 = 16% 第二十一章: 通過偏差和
吳恩達機器學習訓練祕籍整理十一到十九章(二)
第十一章: 如何修改開發集,測試集和度量指標 我們在開發一個新專案的時候,會盡快選好一個開發集和測試集。這樣可以幫助團隊制定一個明確的目標。 到後面我們會發現初始的開發集,測試集和度量指標設定與期待目標有一定的差距。這時候我們需要修改我們的開發集,測試集和度量指標。 在專案中改變開發
吳恩達機器學習訓練祕籍整理一到十章(一)
第一到四章: 1.為什麼選用機器學習策略。機器學習是無數重要應用的基礎。 2.先修知識與符號標記。有監督學習的經驗。瞭解機器學習。 3.驅動機器學習發展的原因。資料的可用性和計算規模。 傳統演算法和神經網路演算法在資料集較小的情況下區別不大,但是隨著資料集的增加和網路層數的加深,效果
吳恩達機器學習訓練祕籍整理五十三到五十五章(八)元件分析 更新中...
第五十三章: 根據元件進行誤差分析 假設你的系統由複雜的機器學習流水線所構建,並且你希望提高該系統的效能,那應該從流水線的哪一部分開始改進呢?你可以通過將誤差歸因於流水線的特定元件,來決定工作的優先順序。 在上圖的流水線中,第一部分是貓檢測器,它能夠檢測出貓,並將它
吳恩達深度學習筆記(28)-網路訓練驗證測試資料集的組成介紹
從今天開始我們進入新的一個大方向了,改善深層神經網路:超引數除錯、正則化以及優化,首先進入深度學習的一個新層面,先認識下在深度學習中的資料集的分類。 之前可能大家已經瞭解了神經網路的組成的幾個部分,那麼我們將繼續學習如何有效運作神經網路,內容涉及超引數調優,如何構建資料,以及如何確保優化
吳恩達深度學習課程第二課第一週第一次作業:用神經網路簡單預測結果
# coding: utf-8 # # Initialization # Welcome to the first assignment of "Improving Deep Neural Networks". # # Training your neural
吳恩達機器學習課程:完全用Python完成,可以的!(附程式碼)
新智元報道 來源:Reddit、GitHub編輯:肖琴【導讀】完全用Python完成吳恩達的
學習筆記——吳恩達-機器學習課程-1.3 用神經網路進行監督學習
神經網路有時媒體炒作的很厲害,考慮到它們的使用效果,有些說法還是靠譜的,事實上到目前為止,幾乎所有的神經網路創造的經濟價值都基於其中一種機器學習,我們稱之為“監督學習”,那是什麼意思呢? 我們來看一些例子, 在監督學習中輸入x,習得一個函式
跟著吳恩達學深度學習:用Scala實現神經網路-第二課:用Scala實現多層神經網路
上一章我們講了如何使用Scala實現LogisticRegression,這一張跟隨著吳恩達的腳步我們用Scala實現基礎的深度神經網路。順便再提一下,吳恩達對於深度神經網路的解釋是我如今聽過的最清楚的課,感嘆一句果然越是大牛知識解釋得越清晰明瞭。 本文分為以下四個部分。
用tensorflow求解吳恩達的機器學習練習題(ex1)
# -*- coding: utf-8 -*- import numpy as np import matplotlib.pyplot as plt import tensorflow as tf a=np.loadtxt('ex1data1.txt',delimiter=','); #載入txt資
跟著吳恩達學深度學習:用Scala實現神經網路-第一課
1. Introduction 2017年8月,前百度首席科學家吳恩達先生在twitter上宣佈自己從百度離職後的第一個動作:在Coursera上推出一門從零開始構建神經網路的Deep Learning課程,一時間廣為轟動。