深度學習訓練模型時儲存Log輸出資訊為檔案

阿新 • • 發佈：2020-12-12

使用logging包實現邊在命令列輸出結果，邊儲存結果為Log檔案

首先自定義一個Logger類，呼叫Logging包實現功能，例項化一個物件logger，直接呼叫logger.info，例如

            logger.info("  ===cost time:{:.4f}s".format(end - start))

完整的示例如下，包含logging記錄資訊以及tensorboard的summary監督指標（https://www.cnblogs.com/ywheunji/p/10712620.html）。參照示例，直接新增logger.info資訊即可錄入檔案。

  1 class Logger(object):
 
  2     def __init__(self, log_file_name, log_level, logger_name):
  3         # firstly, create a logger
  4         self.__logger = logging.getLogger(logger_name)
  5         self.__logger.setLevel(log_level)
  6         # secondly, create a handler
  7         file_handler = logging.FileHandler(log_file_name)
 
  8         console_handler = logging.StreamHandler()
  9         # thirdly, define the output form of handler
 10         formatter = logging.Formatter(
 11             "[%(asctime)s]-[%(filename)s line:%(lineno)d]:%(message)s "
 12         )
 13         file_handler.setFormatter(formatter)
 14         console_handler.setFormatter(formatter)
 
 15         # finally, add the Hander to logger
 16         self.__logger.addHandler(file_handler)
 17         self.__logger.addHandler(console_handler)
 18 
 19     def get_log(self):
 20         return self.__logger
 21         
 22 class Trainer(object):
 23     def __init__(self, weight_path, resume, gpu_id, accumulate, fp_16):
 24         init_seeds(0)
 25         self.train_dataloader = DataLoader(
 26             self.train_dataset,
 27             batch_size=cfg.TRAIN["BATCH_SIZE"],
 28             num_workers=cfg.TRAIN["NUMBER_WORKERS"],
 29             shuffle=True,
 30             pin_memory=True,
 31         )
 32 
 33         self.yolov4 = Build_Model(weight_path=weight_path, resume=resume).to(
 34             self.device
 35         )
 36 
 37     def train(self):
 38         global writer
 39         logger.info(
 40             "Training start,img size is: {:d},batchsize is: {:d},work number is {:d}".format(
 41                 cfg.TRAIN["TRAIN_IMG_SIZE"],
 42                 cfg.TRAIN["BATCH_SIZE"],
 43                 cfg.TRAIN["NUMBER_WORKERS"],
 44             )
 45         )
 46         logger.info(self.yolov4)
 47         logger.info(
 48             "Train datasets number is : {}".format(len(self.train_dataset))
 49         )
 50 
 51         if self.fp_16:
 52             self.yolov4, self.optimizer = amp.initialize(
 53                 self.yolov4, self.optimizer, opt_level="O1", verbosity=0
 54             )
 55         logger.info("        =======  start  training   ======     ")
 56         for epoch in range(self.start_epoch, self.epochs):
 57             start = time.time()
 58             self.yolov4.train()
 59 
 60             mloss = torch.zeros(4)
 61             logger.info("===Epoch:[{}/{}]===".format(epoch, self.epochs))
 62             for i, (imgs, label_sbbox,
 63             ) in enumerate(self.train_dataloader):
 64 
 65                 loss, loss_ciou, loss_conf, loss_cls = self.criterion(p, p_d, label_sbbox)
 66 
 67                 loss.backward()
 68                 # Print batch results
 69                 if i % 10 == 0:
 70                     logger.info(
 71                         "  === Epoch:[{:3}/{}],step:[{:3}/{}],img_size:[{:3}],total_loss:{:.4f}|loss_ciou:{:.4f}|loss_conf:{:.4f}|loss_cls:{:.4f}|lr:{:.4f}".format(
 72                             epoch,
 73                             self.epochs,
 74                             i,
 75                             len(self.train_dataloader) - 1,
 76                             self.train_dataset.img_size,
 77                             mloss[3],
 78                             mloss[0],
 79                             mloss[1],
 80                             mloss[2],
 81                             self.optimizer.param_groups[0]["lr"],
 82                         )
 83                     )
 84                     writer.add_scalar(
 85                         "loss_ciou",
 86                         mloss[0],
 87                         len(self.train_dataloader)
 88                         * epoch
 89                         + i,
 90                     )
 91                     writer.add_scalar(
 92                         "train_loss",
 93                         mloss[3],
 94                         len(self.train_dataloader)
 95                         * epoch
 96                         + i,
 97                     )
 98 
 99 
100             # eval
101             logger.info(
102                 "===== Validate =====".format(epoch, self.epochs)
103             )
104             logger.info("val img size is {}".format(cfg.VAL["TEST_IMG_SIZE"]))
105             with torch.no_grad():
106                 APs, inference_time = Evaluator(
107                     self.yolov4, showatt=False
108                 ).APs_voc()
109                 for i in APs:
110                     logger.info("{} --> mAP : {}".format(i, APs[i]))
111                     mAP += APs[i]
112                 mAP = mAP / self.train_dataset.num_classes
113                 logger.info("mAP : {}".format(mAP))
114                 logger.info(
115                     "inference time: {:.2f} ms".format(inference_time)
116                 )
117                 writer.add_scalar("mAP", mAP, epoch)
118                 self.__save_model_weights(epoch, mAP)
119                 logger.info("save weights done")
120             logger.info("  ===test mAP:{:.3f}".format(mAP))
121 
122 if __name__ == "__main__":
123     global logger, writer
124     writer = SummaryWriter(logdir=opt.log_path + "/event")
125     logger = Logger(
126         log_file_name=opt.log_path + "/log.txt",
127         log_level=logging.DEBUG,
128         logger_name="YOLOv4",
129     ).get_log()
130 
131     Trainer(
132         weight_path=opt.weight_path,
133         resume=opt.resume,
134         gpu_id=opt.gpu_id,
135         accumulate=opt.accumulate,
136         fp_16=opt.fp_16,
137     ).train()

深度學習訓練模型時儲存Log輸出資訊為檔案

使用logging包實現邊在命令列輸出結果，邊儲存結果為Log檔案首先自定義一個Logger類，呼叫Logging包實現功能，例項化一個物件logger，直接呼叫logger.info，例如

深度學習訓練時GPU溫度過高？幾個命令，為你的GPU迅速降溫。

新買回來的不帶水冷公版GPU，在滿負載執行的時候，溫度從室溫馬上飆升到85度，而且模型訓練不是幾分鐘完事，很有可能要長期保持在高溫狀態下執行，讓如此昂貴的GPU一直髮燒真是讓人太心疼！

全網最詳細的深度學習經典模型RESNET解析【京東特邀專家朱利明】（bilibili視訊學習）（程式碼解析）

這是一篇學習記錄貼 1 import torch 2 import torch.nn as nn 3 from .utils import load_state_dict_from_url

深度學習訓練已經停止(強行中斷)了，可GPU記憶體還在佔用著，如何解決？

watch --color -n1 gpustat -cpu 使用者：xujiping 已經結束訓練了，但是GPU的記憶體仍然在佔用

【乾貨】Entity Embeddings : 利用深度學習訓練結構化資料的實體嵌入

【導讀】本文是資料科學家Rutger Ruizendaal撰寫的一篇技術部落格，文章提出深度學習在非結構資料中有不錯的表現，當前通過實體嵌入也可以使之在結構化資料中大放異彩。具體講解了如何利用深度學習訓練結構

AlexNet網路的深度學習工具箱模型【Matlab】

用於影象分類的預訓練AlexNet網路模型 AlexNet是一個預先訓練的卷積神經網路（CNN），已經對來自ImageNet資料集（

深度學習網路模型的輕量化方法

深度學習網路的輕量化由於大部分的深度神經網路模型的引數量很大，無法滿足直接部署到移動端的條件，因此在不嚴重影響模型效能的前提下對模型進行壓縮加速，來減少網路引數量和計算複雜度，提升運算能力。

動手學深度學習 | 語言模型 | 53

目錄語言模型程式碼QA 語言模型一隻猴子打字，就算是打到宇宙毀滅，他也打不出莎士比亞的文章。

深度學習-序列模型2

RNN新生成序列取樣，這樣做的動機：因為要看訓練好的模型不知道在那些方面表現的好，具體來分析，便於進一步改進模型。數學角度說，就是檢查訓練好的資料分佈是怎樣的。

深度學習-序列模型1

RNN的符號表示，序列樣本，序列內部表示，生成y表示，Tx表示輸入長度，Ty表示輸出長度。

Web 上執行深度學習框架模型 - MegEngine.js

看社群開發者如何以一人之力， 3 個月完成 MegEngine javascript 版本，實現在 javascript 環境中快速部署 MegEngine 模型~

深度學習--解決模型過擬合的問題

文章目錄一、過擬合 1.什麼是過擬合 2.模型為什麼會產生過擬合呢？這是因為：

防止在訓練模型時資訊丟失用於TensorFlow、Keras和PyTorch的檢查點教程

如果你玩過電子遊戲，你就會明白為什麼檢查點（chekpoint）是有用的了。舉個例子，有時候你會在一個大Boss的城堡前把你的遊戲的當前進度儲存起來——以防進入城堡裡面就Game Over了。

深度推薦系統-學習筆記【傳統模型+深度學習典型模型】

王喆-深度推薦系統（Amazon外鏈待修復）傳統推薦模型衡量相關性：向量相關性：歸一化 cos 相似度

用 Java 訓練深度學習模型，原來可以這麼簡單！

本文適合有 Java 基礎的人群作者：DJL-Keerthan&Lanking HelloGitHub 推出的《講解開源專案》系列。這一期是由亞馬遜工程師：Keerthan Vasist，為我們講解 DJL（完全由 Java 構建的深度學習平臺）系列的第

深度學習載入儲存的模型遇到的編碼問題

問題描述：UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xf1 in position 0: invalid continuation byte解決方法：

儲存並載入您的Keras深度學習模型

Keras是一個用於深度學習的簡單而強大的Python庫。鑑於深度學習模式可能需要數小時、數天甚至數週的時間來培訓，瞭解如何儲存並將其從磁碟中載入是很重要的。在本文中，您將發現如何將Keras模型儲存到檔案中，並再次

TensorFlow實現儲存訓練模型為pd檔案並恢復

TensorFlow儲存模型程式碼 import tensorflow as tf from tensorflow.python.framework import graph_util

keras 如何儲存最佳的訓練模型

1、只儲存最佳的訓練模型 2、儲存有所有有提升的模型 3、載入模型 4、引數說明

基於Keras 迴圈訓練模型跑資料時記憶體洩漏的解決方式

在使用完模型之後，新增這兩行程式碼即可清空之前model佔用的記憶體： import tensorflow as tf

深度學習訓練模型時儲存Log輸出資訊為檔案

相關推薦