臺大李巨集毅--keras
1. 簡述
2. keras基本流程
以手寫數字識別為例
1. 定義網路結構
2. 設定損失函式的形式
3. 模型擬合
當batch_size=1時,就是 隨機梯度下降 Stochastic gradient descent
我們知道Stochastic gradient descent 比 50000個數據一起算要快很多。但是,當batch_size>1,是也會提高運算速度,比如在手寫數字識別時,batch_size=10 的最終速度要大於 batch_size=1的速度。為什麼?
原因是: GPU 與 矩陣運算
如果有GPU,那麼batch_size越大,運算得越快。但是batch_size太大,效果可能不會特別好。
4. 模型結果
相關推薦
臺大李巨集毅--keras
Keras中文文件 Keras英文文件 1. 簡述 2. keras基本流程 以手寫數字識別為例 1. 定義網路結構 2. 設定損失函式的形式 3. 模型擬合 當batch_size=1時,就是 隨機梯度下降 Stocha
臺大李巨集毅
1:Regression-Case Study 為什麼在Loss function中,只考慮對w的正則化,而不考慮對b的正則化? 因為b是一條水平線,b對Loss function是否平滑幾乎不產生影響。 1-Regression Demo Ada-Gradient
臺大李巨集毅--CNN
CNN與普通深度學習(全網路連線 )的很大區別就是:CNN是關注圖片的一小部分,一小部分的。而普通深度學習是把影象的每一個畫素全部拉長,都作為輸入。 一:CNN整體流程 1. CNN – Convolution CNN 的Convolution與 普通
臺大李巨集毅--深度學習tip(模型優化)
訓練結果不好,並不總是因為過擬合 訓練結果不好,並不總是因為過擬合。有可能是你的training data都沒有訓練好,那最終結果一定不好 深度學習的層數越多,網路越複雜,並不一定模型會越複雜。有時會使得模型變簡單,變成欠擬合。 在機器學習中,要想
臺大李巨集毅-- 反向傳播演算法 Backpropagation
1. 鏈式法則 2. 反向傳播演算法 例項 計算前向傳播: 比如: 你會發現,輸入值就是前向傳播中,要求求解的導數的值。 計算後向傳播: 這裡假設,一個樣本造成的損失loss是: (每個樣本有兩個輸入x1,x2) 綜上所述:
臺大李巨集毅--初入深度學習
1. 神經網路 機器學習的複雜所在,就是與 怎麼進行特種工程 而深度學習的複雜所在,就是 怎麼構造網路的結構(即層數,每層神經元的個數) 所以傳統機器學習到深度學習的轉化,就是特種工程到構造結構的轉化。 那麼結構可以自動生成嗎? 可以,但是還
臺大李巨集毅--梯度下降Gradient Descent
一:簡單梯度下降 1. 概述 預測模型為 y=b+w∗xcp y = b +
【臺大李巨集毅ML課程】Lecture 13 Unsupervised Learning——Linear Dimension Reduction筆記
本節課主要講了兩種線性降維的方法——cluster和PCA,並從兩個角度解釋了PCA。最後講了一些關於矩陣分解的知識。 1.cluster cluster就簡單的帶過了,主要是k-means和HAC k-means原理: (1)先初始化k箇中心點ci
臺大李巨集毅教授最新課程,深度強化學習國語版
李巨集毅的youtube主頁:https://www.youtube.com/channel/UC2ggjtuuWvxrHHHiaDH1dlQ/videos此外,李老師在youtube還有《機器學習》和《深度學習》兩門課程的視訊講解,這兩門課程也獲得了不錯的口碑,課程連結如下
Machine Learning 李巨集毅 HW0字數統計和圖片淡化
words.txt和圖片下載地址:words.txt和圖片 題目1 出現字數統計。 1.讀取words.txt中的所有英文單詞,單詞由分隔。 2.按照單詞出現的次數,給予編號(0,1,2)。 3.統計單詞出現的次數。 4.得到次數和編碼輸出至Q1.txt,每一行都為:
【ML】 李巨集毅機器學習筆記
我的github連結 - 課程相關程式碼: https://github.com/YidaoXianren/Machine-Learning-course-note 0. Introduction Machine Learning: define a set of function
李巨集毅機器學習 P14 Backpropagation 筆記
chain rule:求導的鏈式法則。 接著上一節,我們想要minimize這個loss的值,我們需要計算梯度來更新w和b。 以一個neuron舉例: 這個偏微分的結果就是輸入x。 比如下面這個神經網路: 下面我們要計算這個偏微分:。這裡的以si
李巨集毅機器學習 P13 Brief Introduction of Deep Learning 筆記
deep learning的熱度增長非常快。 下面看看deep learning的歷史。 最開始出現的是1958年的單層感知機,1969年發現單層感知機有限制,到了1980年代出現多層感知機(這和今天的深度學習已經沒有太大的區別),1986年又出現了反向傳播演算法(通常超過3
李巨集毅機器學習 P12 HW2 Winner or Loser 筆記(不使用框架實現使用MBGD優化方法和z_score標準化的logistic regression模型)
建立logistic迴歸模型: 根據ADULT資料集中一個人的age,workclass,fnlwgt,education,education_num,marital_status,occupation等資訊預測其income大於50K或者相反(收入)。 資料集: ADULT資料集。
李巨集毅機器學習P11 Logistic Regression 筆記
我們要找的是一個概率。 f即x屬於C1的機率。 上面的過程就是logistic regression。 下面將logistic regression與linear regression作比較。 接下來訓練模型,看看模型的好壞。 假設有N組trainin
李巨集毅機器學習 P15 “Hello world” of deep learning 筆記
我們今天使用Keras來寫一個deep learning model。 tensorflow實際上是一個微分器,它的功能比較強大,但同時也不太好學。因此我們學Keras,相對容易,也有足夠的靈活性。 李教授開了一個玩笑: 下面我們來寫一個最簡單的deep learning mo
【李巨集毅深度強化學習2018】P3 Q-learning(Basic Idea)
第三講 Q-learning(Basic Idea) 視訊地址:http
【李巨集毅深度強化學習2018】P2 Proximal Policy Optimization (PPO)
第二講 Proximal Policy Optimization(PPO) 視訊地址:https:/
李巨集毅老師《1天搞懂深度學習》
Deep Learning • 上學期的「機器學習」錄影 • DNN: https://www.youtube.com/watch?v=Dr-WRlEFefw • Tips for DNN: https://www.youtube.com/watch?v=xki61j7z-30 • CNN:
【深度學習基礎】《深度學習》李巨集毅
重要知識點: 激勵函式(activation function) softmax layer Lecture 1: Introduction of Deep Learning 1. 深度學習的步驟 機器學習的步驟: Step 1: 定義一個函式集合(define