李巨集毅的強化學習視訊用於梳理翻閱
本文主要是整理策略迭代的部分,重在闡明原理。李巨集毅的視訊,見網上。
最終說明OpenAI的預設強化學習演算法PPO的部分。(Proximal Policy Optimization)
藍色標記為有待查閱具體程式碼。不同於強化學習的值迭代的容易理解和表達,策略迭代更需要耐心、細心、思考。
優化目標
策略
相關推薦
李巨集毅的強化學習視訊用於梳理翻閱
本文主要是整理策略迭代的部分,重在闡明原理。李巨集毅的視訊,見網上。 最終說明OpenAI的預設強化學習演算法PPO的部分。(Proximal Policy Optimization) 藍色標記為有待查閱具體程式碼。不同於強化學習的值迭代的容易理解和表達,策略迭代更需要耐心、細心、思考。 優化目
2018-3-21李巨集毅機器學習視訊筆記(十三)--“Hello Wrold” of Deep learning
Keras:有關的介紹:總的來說就是一個深度學習框架keras - CSDN部落格https://blog.csdn.net/xiaomuworld/article/details/52076202軟體工程中的框架:一種可複用的設計構件(從巨集觀上大體結構的一種規定約束)軟體
【ML】 李巨集毅機器學習筆記
我的github連結 - 課程相關程式碼: https://github.com/YidaoXianren/Machine-Learning-course-note 0. Introduction Machine Learning: define a set of function
李巨集毅機器學習 P14 Backpropagation 筆記
chain rule:求導的鏈式法則。 接著上一節,我們想要minimize這個loss的值,我們需要計算梯度來更新w和b。 以一個neuron舉例: 這個偏微分的結果就是輸入x。 比如下面這個神經網路: 下面我們要計算這個偏微分:。這裡的以si
李巨集毅機器學習 P13 Brief Introduction of Deep Learning 筆記
deep learning的熱度增長非常快。 下面看看deep learning的歷史。 最開始出現的是1958年的單層感知機,1969年發現單層感知機有限制,到了1980年代出現多層感知機(這和今天的深度學習已經沒有太大的區別),1986年又出現了反向傳播演算法(通常超過3
李巨集毅機器學習 P12 HW2 Winner or Loser 筆記(不使用框架實現使用MBGD優化方法和z_score標準化的logistic regression模型)
建立logistic迴歸模型: 根據ADULT資料集中一個人的age,workclass,fnlwgt,education,education_num,marital_status,occupation等資訊預測其income大於50K或者相反(收入)。 資料集: ADULT資料集。
李巨集毅機器學習P11 Logistic Regression 筆記
我們要找的是一個概率。 f即x屬於C1的機率。 上面的過程就是logistic regression。 下面將logistic regression與linear regression作比較。 接下來訓練模型,看看模型的好壞。 假設有N組trainin
李巨集毅機器學習 P15 “Hello world” of deep learning 筆記
我們今天使用Keras來寫一個deep learning model。 tensorflow實際上是一個微分器,它的功能比較強大,但同時也不太好學。因此我們學Keras,相對容易,也有足夠的靈活性。 李教授開了一個玩笑: 下面我們來寫一個最簡單的deep learning mo
線性迴歸 李巨集毅機器學習HW1
本文是李巨集毅老師機器學習的第一次大作業,參考網上程式碼,寫了一下自己的思路。 李巨集毅 HM1: 要求:本次作業使用豐原站的觀測記錄,分成train set跟test set,train set是豐原站每個月的 前20天所有資料。test set則是從豐原站剩下的資料中取樣出來。 trai
李巨集毅機器學習課程--迴歸(Regression)
李老師用的是精靈寶可夢做的比喻,假設進化後的寶可夢的cp值(Combat Power)與未進化之前的寶可夢的cp值相關,我們想找出這兩者之間的函式關係,可以設進化後的cp值為y,進化之前的cp值為x:y = b + w*x (不只可以設一次項,還可以設定二次項,三次項
李巨集毅機器學習P7 Gradient Descent (Demo by AOE) 筆記、P8 Gradient Descent (Demo by Minecraft) 筆記
P7 Gradient Descent (Demo by AOE) 筆記: 在進行Gradient Decent時,我們可以類似玩遊戲帝國時代時探索地圖的情況。 在地圖沒有探索前,你的視野範圍只有很小的一個圈,你不知道圈外的黑幕下面有什麼東西。 現在我們假設地圖上的海拔
李巨集毅機器學習PTT的理解(1)深度學習的介紹
深度學習的介紹 機器學習就像是尋找一個合適的函式,我們輸入資料就可以得到想要的結果,比如: 在語音識別中,我們輸入一段語音,函式的輸出值就是識別的結果;在影象識別中,輸入一張照片,函式可以告訴我們分類
卷積神經網路CNN |李巨集毅機器學習
2018年11月10日 15:29:22 小辣油 閱讀數:8 個人分類: 李巨集毅
李巨集毅機器學習筆記——02.Where does the error come from ?
傳送門: 在上節課講到,如果選擇不同的function set就是選擇不同的model 在testing data上會得到不同的error,而且越複雜的model不見得會給你越低的error,我們要討論的問題就是error來自什麼地方? error有兩個來源,偏
李巨集毅機器學習-學習筆記
function set就是model 機器學習3大步驟: 1. 定義模型(function)集合 2. 指定模型(function)好壞的評價指標 3. 通過演算法選擇到最佳的模型(function) alphago下棋模型抽象為棋局向下一步的分類問題: 減少擁有label的data用量的方法: 1.
臺大李巨集毅--深度學習tip(模型優化)
訓練結果不好,並不總是因為過擬合 訓練結果不好,並不總是因為過擬合。有可能是你的training data都沒有訓練好,那最終結果一定不好 深度學習的層數越多,網路越複雜,並不一定模型會越複雜。有時會使得模型變簡單,變成欠擬合。 在機器學習中,要想
李巨集毅機器學習2016 第八講 深度學習網路優化小訣竅
Tips for Deep Learning 本章節主要講解了深度學習中的一些優化策略,針對不同的情況適用於不同的優化方法。 主要內容是:新的啟用函式(new activation function),自適應的學習率(adaptive learning
[機器學習入門] 李巨集毅機器學習筆記-1(Learning Map 課程導覽圖)
在此就不介紹機器學習的概念了。 Learning Map(學習導圖) PDF VIDEO 先來看一張李大大的總圖↓ 鑑於看起來不是很直觀,我“照虎
李巨集毅機器學習2016 第十五講 無監督學習 生成模型之 VAE
Unsupervised Learning : Generation本章主要講解了無監督學習中的生成模型方法。1.生成模型(Generative Models)“What I cannot create, I do not understand.” ——Richard Fey
[機器學習入門] 李巨集毅機器學習筆記-5(Classification- Probabilistic Generative Model;分類:概率生成模型)
[機器學習] 李巨集毅機器學習筆記-5(Classification: Probabilistic Generative Model;分類:概率生成模型) Classification