李巨集毅的強化學習視訊用於梳理翻閱

阿新 • • 發佈：2020-05-14

本文主要是整理策略迭代的部分，重在闡明原理。李巨集毅的視訊，見網上。

最終說明OpenAI的預設強化學習演算法PPO的部分。（Proximal Policy Optimization）

藍色標記為有待查閱具體程式碼。不同於強化學習的值迭代的容易理解和表達，策略迭代更需要耐心、細心、思考。

優化目標

策略

李巨集毅的強化學習視訊用於梳理翻閱

本文主要是整理策略迭代的部分，重在闡明原理。李巨集毅的視訊，見網上。最終說明OpenAI的預設強化學習演算法PPO的部分。（Proximal Policy Optimization）藍色標記為有待查閱具體程式碼。不同於強化學習的值迭代的容易理解和表達，策略迭代更需要耐心、細心、思考。優化目

2018-3-21李巨集毅機器學習視訊筆記（十三）--“Hello Wrold” of Deep learning

Keras：有關的介紹：總的來說就是一個深度學習框架keras - CSDN部落格https://blog.csdn.net/xiaomuworld/article/details/52076202軟體工程中的框架：一種可複用的設計構件（從巨集觀上大體結構的一種規定約束）軟體

【ML】李巨集毅機器學習筆記

我的github連結 - 課程相關程式碼： https://github.com/YidaoXianren/Machine-Learning-course-note 0. Introduction Machine Learning: define a set of function

李巨集毅機器學習 P14 Backpropagation 筆記

chain rule：求導的鏈式法則。接著上一節，我們想要minimize這個loss的值，我們需要計算梯度來更新w和b。以一個neuron舉例：這個偏微分的結果就是輸入x。比如下面這個神經網路：下面我們要計算這個偏微分：。這裡的以si

李巨集毅機器學習 P13 Brief Introduction of Deep Learning 筆記

deep learning的熱度增長非常快。下面看看deep learning的歷史。最開始出現的是1958年的單層感知機，1969年發現單層感知機有限制，到了1980年代出現多層感知機（這和今天的深度學習已經沒有太大的區別），1986年又出現了反向傳播演算法（通常超過3

李巨集毅機器學習 P12 HW2 Winner or Loser 筆記（不使用框架實現使用MBGD優化方法和z_score標準化的logistic regression模型）

建立logistic迴歸模型：根據ADULT資料集中一個人的age，workclass，fnlwgt，education，education_num，marital_status，occupation等資訊預測其income大於50K或者相反（收入）。資料集： ADULT資料集。

李巨集毅機器學習P11 Logistic Regression 筆記

我們要找的是一個概率。 f即x屬於C1的機率。上面的過程就是logistic regression。下面將logistic regression與linear regression作比較。接下來訓練模型，看看模型的好壞。假設有N組trainin

李巨集毅機器學習 P15 “Hello world” of deep learning 筆記

我們今天使用Keras來寫一個deep learning model。 tensorflow實際上是一個微分器，它的功能比較強大，但同時也不太好學。因此我們學Keras，相對容易，也有足夠的靈活性。李教授開了一個玩笑：下面我們來寫一個最簡單的deep learning mo

線性迴歸李巨集毅機器學習HW1

本文是李巨集毅老師機器學習的第一次大作業，參考網上程式碼，寫了一下自己的思路。李巨集毅 HM1: 要求：本次作業使用豐原站的觀測記錄，分成train set跟test set，train set是豐原站每個月的前20天所有資料。test set則是從豐原站剩下的資料中取樣出來。 trai

李巨集毅機器學習課程--迴歸(Regression)

李老師用的是精靈寶可夢做的比喻，假設進化後的寶可夢的cp值(Combat Power)與未進化之前的寶可夢的cp值相關，我們想找出這兩者之間的函式關係，可以設進化後的cp值為y,進化之前的cp值為x：y = b + w*x (不只可以設一次項，還可以設定二次項，三次項

李巨集毅機器學習P7 Gradient Descent (Demo by AOE) 筆記、P8 Gradient Descent (Demo by Minecraft) 筆記

P7 Gradient Descent (Demo by AOE) 筆記：在進行Gradient Decent時，我們可以類似玩遊戲帝國時代時探索地圖的情況。在地圖沒有探索前，你的視野範圍只有很小的一個圈，你不知道圈外的黑幕下面有什麼東西。現在我們假設地圖上的海拔

李巨集毅機器學習PTT的理解（1）深度學習的介紹

深度學習的介紹機器學習就像是尋找一個合適的函式，我們輸入資料就可以得到想要的結果，比如：在語音識別中，我們輸入一段語音，函式的輸出值就是識別的結果；在影象識別中，輸入一張照片，函式可以告訴我們分類

卷積神經網路CNN |李巨集毅機器學習

2018年11月10日 15:29:22 小辣油閱讀數：8 個人分類：李巨集毅

李巨集毅機器學習筆記——02.Where does the error come from ?

傳送門：在上節課講到，如果選擇不同的function set就是選擇不同的model 在testing data上會得到不同的error，而且越複雜的model不見得會給你越低的error，我們要討論的問題就是error來自什麼地方？ error有兩個來源，偏

李巨集毅機器學習-學習筆記

function set就是model 機器學習3大步驟: 1. 定義模型(function)集合 2. 指定模型(function)好壞的評價指標 3. 通過演算法選擇到最佳的模型(function) alphago下棋模型抽象為棋局向下一步的分類問題: 減少擁有label的data用量的方法: 1.