臺大李巨集毅

阿新 • • 發佈：2018-12-12

1：Regression-Case Study

為什麼在Loss function中，只考慮對w的正則化，而不考慮對b的正則化？

因為b是一條水平線，b對Loss function是否平滑幾乎不產生影響。

1-Regression Demo

Ada-Gradient時會詳細講解這個技巧：小的learning rate導致要很多次迭代才能達到最優解，大的learning rate有可能會有巨幅震盪，也無法達到最優解。有一個調參的技巧，就是對w和b剋制化的learning rate。

lr = 1

....................................

lr_b = 0

lr_w = 0

....................................

lr_b = lr_b + b_grad ** 2

lr_w = lr_w + w_grad ** 2

.................................

# update parameters.

b = b - lr/np.sqrt(lr_b)* b_grad

w = w- lr/np.sqrt(lr_w)* w_grad

2：Where does the error come from？

error due to “bias” and error due to “variance”。

簡單的model（model set比較小，這個小的model set可能根本不包含真實的target model），bias大，variance小；

複雜的model（model set比較大，這個大的model set可能就包含真實的target model），bias小，variance大。

如果error來自於variance很大，那麼就是overfitting；

如果error來自於bias很大，那麼就是underfitting；

What to do with large bias?

1、Diagnosis:

(1) If your model cannot even fit the training examples, then you have large bias.----> Underfitting.

(2) If you can fit the training data, but large error on testing data, then you probably have large variance. ----> Overfitting.

2、For bias, redesign your model:

(1) Add more features as input;

(2) A more complex model

What to do with large variance?

1、 More data（very effective, but not always practical）可以自己做訓練資料，例如翻轉、加噪聲等。

2、 Regularization (希望引數變化較小，曲線變平滑)，但是可能會使你的model set 不包含target model，可能會傷害bias。

臺大李巨集毅

1：Regression-Case Study 為什麼在Loss function中，只考慮對w的正則化，而不考慮對b的正則化？因為b是一條水平線，b對Loss function是否平滑幾乎不產生影響。 1-Regression Demo Ada-Gradient

臺大李巨集毅--CNN

CNN與普通深度學習（全網路連線）的很大區別就是：CNN是關注圖片的一小部分，一小部分的。而普通深度學習是把影象的每一個畫素全部拉長，都作為輸入。一：CNN整體流程 1. CNN – Convolution CNN 的Convolution與普通

臺大李巨集毅--深度學習tip（模型優化）

訓練結果不好，並不總是因為過擬合訓練結果不好，並不總是因為過擬合。有可能是你的training data都沒有訓練好，那最終結果一定不好深度學習的層數越多，網路越複雜，並不一定模型會越複雜。有時會使得模型變簡單，變成欠擬合。在機器學習中，要想

臺大李巨集毅--keras

Keras中文文件 Keras英文文件 1. 簡述 2. keras基本流程以手寫數字識別為例 1. 定義網路結構 2. 設定損失函式的形式 3. 模型擬合當batch_size=1時，就是隨機梯度下降 Stocha

臺大李巨集毅-- 反向傳播演算法 Backpropagation

1. 鏈式法則 2. 反向傳播演算法例項計算前向傳播：比如：你會發現，輸入值就是前向傳播中，要求求解的導數的值。計算後向傳播：這裡假設，一個樣本造成的損失loss是：（每個樣本有兩個輸入x1,x2）綜上所述：

臺大李巨集毅--初入深度學習

1. 神經網路機器學習的複雜所在，就是與怎麼進行特種工程而深度學習的複雜所在，就是怎麼構造網路的結構（即層數，每層神經元的個數）所以傳統機器學習到深度學習的轉化，就是特種工程到構造結構的轉化。那麼結構可以自動生成嗎？可以，但是還

臺大李巨集毅--梯度下降Gradient Descent

一：簡單梯度下降 1. 概述預測模型為 y=b+w∗xcp y = b +

【臺大李巨集毅ML課程】Lecture 13 Unsupervised Learning——Linear Dimension Reduction筆記

本節課主要講了兩種線性降維的方法——cluster和PCA，並從兩個角度解釋了PCA。最後講了一些關於矩陣分解的知識。 1.cluster cluster就簡單的帶過了，主要是k-means和HAC k-means原理：（1）先初始化k箇中心點ci

臺大李巨集毅教授最新課程，深度強化學習國語版

李巨集毅的youtube主頁：https://www.youtube.com/channel/UC2ggjtuuWvxrHHHiaDH1dlQ/videos此外，李老師在youtube還有《機器學習》和《深度學習》兩門課程的視訊講解，這兩門課程也獲得了不錯的口碑，課程連結如下

Machine Learning 李巨集毅 HW0字數統計和圖片淡化

words.txt和圖片下載地址：words.txt和圖片題目1 出現字數統計。 1.讀取words.txt中的所有英文單詞，單詞由分隔。 2.按照單詞出現的次數，給予編號（0,1,2）。 3.統計單詞出現的次數。 4.得到次數和編碼輸出至Q1.txt,每一行都為：

【ML】李巨集毅機器學習筆記

我的github連結 - 課程相關程式碼： https://github.com/YidaoXianren/Machine-Learning-course-note 0. Introduction Machine Learning: define a set of function

李巨集毅機器學習 P14 Backpropagation 筆記

chain rule：求導的鏈式法則。接著上一節，我們想要minimize這個loss的值，我們需要計算梯度來更新w和b。以一個neuron舉例：這個偏微分的結果就是輸入x。比如下面這個神經網路：下面我們要計算這個偏微分：。這裡的以si

李巨集毅機器學習 P13 Brief Introduction of Deep Learning 筆記

deep learning的熱度增長非常快。下面看看deep learning的歷史。最開始出現的是1958年的單層感知機，1969年發現單層感知機有限制，到了1980年代出現多層感知機（這和今天的深度學習已經沒有太大的區別），1986年又出現了反向傳播演算法（通常超過3

李巨集毅機器學習 P12 HW2 Winner or Loser 筆記（不使用框架實現使用MBGD優化方法和z_score標準化的logistic regression模型）

建立logistic迴歸模型：根據ADULT資料集中一個人的age，workclass，fnlwgt，education，education_num，marital_status，occupation等資訊預測其income大於50K或者相反（收入）。資料集： ADULT資料集。

李巨集毅機器學習P11 Logistic Regression 筆記

我們要找的是一個概率。 f即x屬於C1的機率。上面的過程就是logistic regression。下面將logistic regression與linear regression作比較。接下來訓練模型，看看模型的好壞。假設有N組trainin

李巨集毅機器學習 P15 “Hello world” of deep learning 筆記

我們今天使用Keras來寫一個deep learning model。 tensorflow實際上是一個微分器，它的功能比較強大，但同時也不太好學。因此我們學Keras，相對容易，也有足夠的靈活性。李教授開了一個玩笑：下面我們來寫一個最簡單的deep learning mo

【李巨集毅深度強化學習2018】P3 Q-learning（Basic Idea）

第三講 Q-learning（Basic Idea）視訊地址：http

【李巨集毅深度強化學習2018】P2 Proximal Policy Optimization (PPO)

第二講 Proximal Policy Optimization(PPO) 視訊地址：https:/

李巨集毅老師《1天搞懂深度學習》

Deep Learning • 上學期的「機器學習」錄影 • DNN: https://www.youtube.com/watch?v=Dr-WRlEFefw • Tips for DNN: https://www.youtube.com/watch?v=xki61j7z-30 • CNN:

【深度學習基礎】《深度學習》李巨集毅

重要知識點：激勵函式（activation function） softmax layer Lecture 1: Introduction of Deep Learning 1. 深度學習的步驟機器學習的步驟： Step 1: 定義一個函式集合(define

臺大李巨集毅

相關推薦