pytorch訓練常見問題

阿新 • • 發佈：2020-06-28

Cuda out of memory

1.在訓練迴圈除非必要，不要形成積累歷史記錄的變數

total_loss = 0
for i in range(10000):
    optimizer.zero_grad()
    output = model(input)
    loss = criterion(output)
    loss.backward()
    optimizer.step()
    total_loss += loss #pytorch中任何一個變數加上一個required_grad變數都會變成required_grad變數，這樣每次反向傳播都會增加記憶體佔用
#應該直接訪問變數的底層資料
#total_loss += float(loss)

return accuracy
# return accuracy.data[0]

2.不要保持一個不必要的張量或變數

for i in range(5):
    intermediate = f(input[i])
    result += g(intermediate)
    # del intermediate  解決方法
output = h(result)#這裡計算時，intermediate依然存在，因為intermediate的作用域超出了迴圈部分。
#對於分配給區域性變數的變數或張量，除非超出了變數作用域，否則python不會主動回收這些記憶體
return output

3.RNN的BPTT問題---Backpropagation through time
RNN中反向傳播記憶體佔用和RNN輸入序列的長度成正比。因此如果餵給RNN一個太長的輸入序列，記憶體會很快耗盡。

4.不要用太大的線性層---線性層佔用記憶體巨大。

pytorch訓練常見問題

Cuda out of memory 1.在訓練迴圈除非必要，不要形成積累歷史記錄的變數 total_loss = 0

Pytorch訓練過程出現nan的解決方式

今天使用shuffleNetV2+，使用自己的資料集，遇到了loss是nan的情況，而且top1精確率出現斷崖式上升，這顯示是不正常的。

解決Pytorch訓練過程中loss不下降的問題

在使用Pytorch進行神經網路訓練時，有時會遇到訓練學習率不下降的問題。出現這種問題的可能原因有很多，包括學習率過小，資料沒有進行Normalization等。不過除了這些常規的原因，還有一種難以發現的原因：在計算loss

使用PyTorch訓練一個影象分類器例項

如下所示： import torch import torchvision import torchvision.transforms as transforms import matplotlib.pyplot as plt

pytorch訓練時驗證階段出現cuda out of memory

技術標籤：pytorch 驗證集需要torch.no_grad()方法： with torch.no_grad(): for bt_idx, (imgs, labels) in enumerate(val_loader):

pytorch 訓練時候不動了

技術標籤：deeplearning深度學習深度學習pytorch 因為用的執行緒太多，開啟檔案太多了導致的，如下步驟

pytorch訓練的模型在onnx和mnn中的使用

技術標籤：深度學習mnnonnxpytorch pytorch自身部署較麻煩，一般使用onnx和mnn較為實用

pytorch訓練main函式模板

1 # -*- encoding: utf-8 -*- 2 \"\"\" 3 @File:main.py 4 @Time:2020/11/14 5 @Author:Ding 6 @Description:main function

【解決方案】Pytorch訓練中止，報錯Segmentation fault(core dumped)，此後多卡利用率很低

技術標籤：deep learninglinuxbug深度學習問題描述 1.我使用三塊卡，分別是，1，2，5號，進行三個對比實驗。昨天還是可以執行比較快的，今早發現程式中止，報錯:Segmentation fault(core dumped) 我按照網上的解

Pytorch訓練報錯：ValueError: empty range for randrange() (0, -15, -15)

技術標籤：深度學習人工智慧python神經網路pytorch 報錯如下： raise ValueError, "empty range for randrange() (%d,%d, %d)" % (istart, istop, width)

yolov5-pytorch訓練自己的資料集

技術標籤：pytorch 程式碼下載這個是github的下載地址 git clone https://github.com/ultralytics/yolov5

git log規範_deepvac-PyTorch訓練模型專案的工程化規範

技術標籤：git log規範 deepvac提供了PyTorch訓練模型專案的工程化規範。專案地址：

opencv 呼叫 pytorch訓練的resnet模型

使用OpenCV的DNN模組呼叫pytorch訓練的分類模型，這裡記錄一下中間的流程，主要分為模型訓練，模型轉換和OpenCV呼叫三步。

Pytorch 訓練過程中出現的問題

簡單記錄一些自己再深度學習過程中出現的問題 each element in list of batch should be of equal size

Pytorch訓練模型常用操作

One-hot編碼將標籤轉換為one-hot編碼形式 def to_categorical(y, num_classes): \"\"\" 1-hot encodes a tensor \"\"\"

linux下使用tensorboadX視覺化pytorch訓練結果

1、依賴首先你需要安裝torch、tensorflow、tensorboardX 2、基本程式碼 from tensorboardX import SummaryWriter

pytorch訓練分類器

資料通常，當您必須處理影象，文字，音訊或視訊資料時，可以使用將資料載入到 NumPy 陣列中的標準 Python 包。然後，您可以將該陣列轉換為torch.*Tensor。

Pytorch 訓練停止，輸出顯示 died with <Signals,SIGKILL.9> 問題定位過程記錄

　　最近使用 Pytorch 進行模型訓練時，模型在訓練到一小部分後程序均被停止。第一次以為是由於機器上其他人的誤操作，故而直接重新拉起訓練。但第二次程式終止時，發現基本與第一次訓練停止的訓練 iteration 一致，

Pytorch訓練時GPU佔用率低0%

問題描述最近在做畢業設計的論文，訓練CNN的時候用nvidia-smi命令檢視顯示卡佔用率的時候發現一個事：

【轉載】在PyTorch訓練一個epoch時，模型不能接著訓練，Dataloader卡死——在pytorch中儘量不要使用opencv而是使用PIL

版權宣告：本文為CSDN博主「時光碎了天」的原創文章，遵循CC 4.0 BY-SA版權協議，轉載請附上原文出處連結及本宣告。原文連結：https://blog.csdn.net/u013289254/article/details/103429257

pytorch訓練常見問題

Cuda out of memory

相關推薦