CoudSimPyEnergy程式碼解讀

阿新 • • 發佈：2021-01-25

技術標籤：科研

$PG = E_{\tau} [\sum_{t=0}^T \nabla log \pi(a_t|s_t) * (Q_t - b_t )]$

$Q_t=Q^{\pi}(s_t, a_t)$

_sum_of_rewards(self, rewards_n)

計算q_n

1. reward_to_go = False

直接利用折扣累積獎勵回報值替代 $Q^{\pi}(s_t, a_t)$
梯度計算公式為

$E_{\tau} [\sum_{t=0}^T \nabla log \pi(a_t|s_t) * Ret(\tau )]\\ Ret(\tau) = \sum_{t'=0}^T \gamma^t' r_{t'}.$

2.reward_to_go = True

$Q_t = \sum_{t'=t}^T \gamma^(t^\prime -t)* r_{t'}$

_compute_advantage(self, q_n)

根據q_n計算優勢函式
adv_n：二維資料，需要減去跨行的平均值axis=0, 對應多條軌跡的平均值

estimate_return(self, rewards_n)

返回q_n ,以及歸一化後的adv_n

update_parameters(self, all_observations, all_actions, all_advantages, old_agent)

實驗對比實做

reward_to_go分別設定為True（實驗一）和False（實驗二）
當為true時，修改優勢函式的計算方式（實驗三），再對比
再在優勢函式的基礎上，實現PPO演算法（實驗四）（線上和離線對比）

驗證求loss時候，傳入的引數的維度，等待實驗結果

ValueError: Parent directory of D:\CloudSimPyEnergy\playground\DAG\launch_scripts\agents\ppo.ckpt-1 doesn't exist, can't save.

agent = Agent(name, brain, 1, reward_to_go=True, nn_baseline=True, normalize_advantages=True,
              model_save_path='%s/energy-multiple-process-machine5.ckpt' % model_dir)

CoudSimPyEnergy程式碼解讀

技術標籤：科研 _sum_of_rewards(self, rewards_n) 計算q_n 1. reward_to_go = False 直接利用折扣累積獎勵回報值替代梯度計算公式為

超越 BERT 模型的 ELECTRA 程式碼解讀

引用自：https://zhuanlan.zhihu.com/p/139898040 程式碼位置： https://github.com/google-research/electra

typescript繼承 extends = (this && this.extends) || (function () { 程式碼解讀

　　　// function (d, b) 引數d子函式,b父函式. 　　　// (this && this.__extends)防止this.extends取到空型別, 如果this型別為空, 不執行this.__extends. 1 　　var __extends = (this && this

3.Cadical-程式碼解讀restart.cpp

restart.cpp定義了internal型別的幾個成員函式： bool Internal::stabilizing () bool Internal::restarting ()

8.CaDiCal程式碼解讀——單獨的型別相關程式碼--file.hpp-file.cpp

說明：（1）file.hpp中包含了相關的輸入輸出函式；（2）File型別內部有一個Internal指標，該指標用於銜接；

小酒一杯品原始碼-DbUtils程式碼解讀

ORM一直是Web開發一個熱點話題，DbUtils則是給出了一個相當簡潔的答案。DbUtils的巢狀也不深，而且主動的API呼叫也非常符合程式設計師的思維(Hibernate和iBatis這種隱藏了大多數細節的框架，連找到個入口都要費半天勁

程式碼解讀——Solver.h及Solver.cpp

一些重要筆記整理 1.變元v的decision[v部分變元不參與活躍度排序在讀入cnf檔案時，首先呼叫的是newVars函式，該函式呼叫的第二個引數是預設值True。

HyperLPR車牌識別專案程式碼解讀

HyperLPR車牌識別專案程式碼解讀 High Accuracy Chinese Plate Recognition Framework, This research aims at simply developping plate recognition project based on deep learning methods, with low complexit

AI藝術鑑賞挑戰賽 - 看畫猜作者程式碼解讀

AI藝術鑑賞挑戰賽 AI藝術鑑賞-3rd-solution form 今天沒吃飯基本框架：基於Resnext50，eff-b3訓練影象尺寸448，512，600的模型，取得分最高的4組結果進行投票

注意力增強卷積程式碼解讀

原論文 Attention Augmented Convolutional Networks 程式碼來源 leaderj1001/Attention-Augmented-Conv2d

廖雪峰Python教程中簡單ORM程式碼解讀

程式碼 # -*- coding: utf-8 -*- \' Simple ORM using metaclass \' class Field(object): def __init__(self, name, column_type):

【yolov5程式碼解讀】資料增量之augment_hsv

技術標籤：yolov5影象處理深度學習 augment_hsv作為yolov5的預設資料增量方式之一，試圖在hsv顏色空間上對圖片進行變換，達到資料增量的效果。那麼什麼是hsv顏色空間呢？在日常生活中我們描述一件物品的顏色的時

JS深拷貝的實現過程和程式碼解讀

在程式碼編寫中，我們經常用到複製/拷貝等操作。JS中存在兩種變數型別，分別為值型別和引用型別。

GATE tensorflow 1.x 程式碼解讀

看了一些論文的程式碼，個人感覺 GATE 的程式碼相對容易讀懂一點。本文簡單解讀一下 GATE 的程式碼，幫助自己加深理解。為了簡潔起見，本文只介紹 inductive 部分，transductive 部分變化不大，不作贅述。由於我是

FSL-GNN程式碼解讀

FSL-GNN程式碼解讀 main.py（主函式） 1、載入資料集： train_loader = generator.Generator(args.dataset_root, args, partition=\'train\', dataset=args.dataset)

swin-transformer-pytorch實現程式碼解讀

最近打kaggle要用 swin-transformer-pytorch實現 model.py \"\"\" Swin Transformer A PyTorch impl of : `Swin Transformer: Hierarchical Vision Transformer using Shifted Windows`

webpack學習：uni執行時程式碼解讀

uni的vue程式碼是如何在微信小程式裡面執行的，對此比較感興趣所以去除錯學習了一波.

GCN程式碼解讀

1 #定義標頭檔案 2 import math 3 import time 4 import torch 5 import torch.nn as nn 6 import numpy as np

中通快遞香港上市，董事長賴梅鬆解讀股票程式碼「2057」

9月29日訊息今日上午，中通快遞（開曼）有限公司在香港聯合交易所有限公司主機板正式掛牌。上市首日，中通快遞高開 11.93%，報 244 港元。中通快遞也成為第一個同時在美國、香港兩地上市的快遞企業。

火影推薦程式連載54-華為鯤鵬專家解讀：90%程式碼如何移植到鯤鵬平臺

Linux環境下跨平臺軟體移植過程中，需要開發者閱讀程式碼、手工修改、反覆編譯和除錯，移植週期長，效率低，那麼如何改進週期長，效率低的問題呢？

CoudSimPyEnergy程式碼解讀

_sum_of_rewards(self, rewards_n)

_compute_advantage(self, q_n)

estimate_return(self, rewards_n)

update_parameters(self, all_observations, all_actions, all_advantages, old_agent)

實驗對比實做

相關推薦