強化學習（一）

阿新 • • 發佈：2020-10-17

提示：文章寫完後，目錄可以自動生成，如何生成可參考右邊的幫助文件

文章目錄

前言
一、強化學習是什麼？

前言

7月份和老師溝通後，確定了基本的研究方向：智慧控制，具體一點就是強化學習在無人機、飛行器、航天器控制方面的應用，然後踏上了機器學習的心酸路程。10月份，終於結束了第一階段的學習。

這個系列縫合了李巨集毅老師、莫煩老師、劉建平老師等的知識，在此感謝這三位老師並強烈推薦這三位老師的教學視訊或部落格。

一、強化學習是什麼？

強化學習是和監督學習、非監督學習並列的第三種機器學習方法。

強化學習的學習思路和人比較類似，是在實踐中學習，比如學習走路，如果摔倒了，那麼我們大腦後面會給一個負面的獎勵值，說明走的姿勢不好。然後我們從摔倒狀態中爬起來，如果後面正常走了一步，那麼大腦會給一個正面的獎勵值，我們會知道這是一個好的走路姿勢。

上面的大腦代表我們演算法執行個體，智慧體(Agent)，下面的地球代表環境(environment)。Agent選擇一個合適的動作(Action) AtA_t後，環境的狀態(State)會發生改變，環境狀態變為St+1S_(t+1)，同時我們得到了我們採取動作AtA_t的延時獎勵(Reward)

相關推薦

強化學習（一）

提示：文章寫完後，目錄可以自動生成，如何生成可參考右邊的幫助文件文章目錄

OpenGL學習（一）-- 術語瞭解

我的 OpenGL 專題學習目錄，希望和大家一起學習交流進步！ OpenGL學習（一）-- 術語瞭解

微服務設計學習（一）關於微服務和如何建模服務

前言隨著網際網路在21世紀初被大規模接入，網際網路由基於流量點選贏利的單方面資訊釋出的Web 1.0業務模式，轉變為由使用者主導而生成內容的Web 2.0業務模式。因此，網際網路應用系統所需處理的訪問量和資料量均疾

關於Shiro框架的學習（一）

前言由於最近在做一個專案，剛完成到登入註冊，不想和以前的專案搬同樣的磚了，想完成點不那麼low的功能，像單點登入、許可權控制等，於是就想起了Shiro框架。

WPF 學習（一）

一、WPF介紹 WPF全稱 Windows Presentation Foundation,幹啥用的？主要是用來製作Windows桌面客戶端軟體的。

在WIN上使用TORCS模擬器做深度強化學習（2）

當你在win上下載安裝好TORCS和patch之後（如果不會請翻看之前的文章），你可以點選安裝目錄中的wtorcs.exe來啟動客戶端

演算法學習（一）氣泡排序

一、引言　　演算法知識是計算機和軟體工程的基礎，雖然日常開發中很少會讓我們自己寫演算法，但是對於不是科班出身的我來說，技術就是我的精神食糧，所以這一分類開始記錄學習演算法的過程~~~

Vue.js學習（一）—— axios學習

一、axios簡介　　axios 是一個基於Promise 用於瀏覽器和 nodejs 的 HTTP 客戶端，它本身具有以下特徵：

nginx 學習（一）

本文轉載原文地址：https://www.cnblogs.com/wcwnina/p/8728391.html Nginx的產生沒有聽過Nginx？那麼一定聽過它的\"同行\"Apache吧！Nginx同Apache一樣都是一種WEB伺服器。基於REST架構風格，以統一資源描述符(Un

NoSQL資料庫-MongoDB 學習（一）

基本介紹 MongoDB 是為了快速開發網際網路 Web 應用而設計的資料庫系統 MongoDB 的設計目標是極簡、靈活、作為 Web 應用棧的一部分

keras學習（一）

最近在學習keras，主要還是跟著網上大佬們的教程走的，程式碼也是跟著寫的，沒啥自己創新，算是記錄一下吧！第一次學習就是進行一個簡單的擬合，擬合一個一元一次方程吧（數學語言來說）：y = 0.5x + 2。先放上程

favicon.ico學習（一）什麼是 favicon.ico，為何我的瀏覽器會向其祕密傳送請求？

favicon.ico是什麼？所謂favicon，即Favorites Icon的縮寫，是指顯示在瀏覽器收藏夾、位址列和標籤標題前面的個性化圖示。以圖示的方式區別不同的網站。

angular學習（一）

第一天學習angular，首先看了基本的搭建過程和基本概念。環境搭建：首先安裝nodejs和npm，然後安裝angularcli，要使用npm命令安裝 CLI，請開啟終端/控制檯視窗，輸入如下命令：

Kernel Linux學習（一）——環境搭建

Kernel Linux學習——環境搭建 2020-08-0220:14:19 hawkJW 　　　　因為最近資訊保安競賽中經常出現Kernel Linux相關方面的習題，因此正好通過疫情這段時間學習一下Kernel Linux相關的知識。

pwn——IO_FILE學習（一）

IO_FILE學習（一） 2020-08-2214:01:55 hawk 　　因為參加的2020年全國大學生資訊保安競賽創新實踐賽時，因為自己十分的菜，pwn題僅僅痛苦的做出了幾道。之後學校大佬分享了一下他們的wp，仔細檢視部分題目的wp，解

mmdetection3d學習（一）：初步認識

mmdetection3d mmdetection3d 是 mmdetection 的 3D 版本，近期剛開源。原始碼地址 https://github.com/open-mmlab/mmdetection3d

webpack深入學習（一）

概念 webpack是一個JavaScript應用程式的靜態打包器把js程式碼根據依賴關係生成一個或者多個bundle（包）進行使用

黑格爾學習（一）

名言凡是存在的都是合理的，凡是合理的都是存在的。” 哲學就是哲學史。這個持續運轉的世界，是一場依劇本演出的戲劇，而劇本所遵循的那個最本質的東西，就是“絕對精神”。

PX4原始碼學習（一）：結構概述

最近在做PX4韌體的移植開發工作，由於之前沒有這方面開發經驗，加之PX4原始碼又比較龐雜，所以想要通過一點一點的學習梳理和實踐，使這部分工作能夠儘快開展起來。部落格中如有錯誤，懇請大家指正，同時歡

SpringBoot學習（一）myeclipse搭建springboot

1.使用myeclipse搭建springboot 1） File -> New ->Other 選Spring Web 是為了嵌入一個tomcat，會在pom.xml自動增加：