解決pytorch多GPU訓練儲存的模型,在單GPU環境下加載出錯問題

阿新 • • 發佈：2020-06-23

背景

在公司用多卡訓練模型，得到權值檔案後儲存，然後回到實驗室，沒有多卡的環境，用單卡訓練，載入模型時出錯，因為單卡機器上，沒有使用DataParallel來載入模型，所以會出現載入錯誤。

原因

DataParallel包裝的模型在儲存時，權值引數前面會帶有module字元，然而自己在單卡環境下，沒有用DataParallel包裝的模型權值引數不帶module。本質上儲存的權值檔案是一個有序字典。

解決方法

1.在單卡環境下，用DataParallel包裝模型。

2.自己重寫Load函式，靈活。

from collections import OrderedDict
def myOwnLoad(model,check):
  modelState = model.state_dict()
  tempState = OrderedDict()
  for i in range(len(check.keys())-2):
    print modelState.keys()[i],check.keys()[i]
    tempState[modelState.keys()[i]] = check[check.keys()[i]]
  temp = [[0.02]*1024 for i in range(200)] # mean=0,std=0.02
  tempState['myFc.weight'] = torch.normal(mean=0,std=torch.FloatTensor(temp)).cuda()
  tempState['myFc.bias']  = torch.normal(mean=0,std=torch.FloatTensor([0]*200)).cuda()

  model.load_state_dict(tempState)
  return model

補充知識：Pytorch：多GPU訓練網路與單GPU訓練網路儲存模型的區別

測試環境：Python3.6 + Pytorch0.4

在pytorch中，使用多GPU訓練網路需要用到【nn.DataParallel】：

gpu_ids = [0,1,2,3]
device = t.device("cuda:0" if t.cuda.is_available() else "cpu") # 只能單GPU執行
net = LeNet()
if len(gpu_ids) > 1:
  net = nn.DataParallel(net,device_ids=gpu_ids)
net = net.to(device)

而使用單GPU訓練網路：

device = t.device("cuda:0" if t.cuda.is_available() else "cpu") # 只能單GPU執行
net = LeNet().to(device)

由於多GPU訓練使用了 nn.DataParallel(net,device_ids=gpu_ids) 對網路進行封裝，因此在原始網路結構中添加了一層module。網路結構如下：

DataParallel(
 (module): LeNet(
  (conv1): Conv2d(3,6,kernel_size=(5,5),stride=(1,1))
  (conv2): Conv2d(6,16,1))
  (fc1): Linear(in_features=400,out_features=120,bias=True)
  (fc2): Linear(in_features=120,out_features=84,bias=True)
  (fc3): Linear(in_features=84,out_features=10,bias=True)
 )
)

而不使用多GPU訓練的網路結構如下：

LeNet(
 (conv1): Conv2d(3,1))
 (conv2): Conv2d(6,1))
 (fc1): Linear(in_features=400,bias=True)
 (fc2): Linear(in_features=120,bias=True)
 (fc3): Linear(in_features=84,bias=True)
)

由於在測試模型時不需要用到多GPU測試，因此在儲存模型時應該把module層去掉。如下：

if len(gpu_ids) > 1:
  t.save(net.module.state_dict(),"model.pth")
else:
  t.save(net.state_dict(),"model.pth")

以上這篇解決pytorch多GPU訓練儲存的模型,在單GPU環境下加載出錯問題就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

解決pytorch多GPU訓練儲存的模型,在單GPU環境下加載出錯問題

背景在公司用多卡訓練模型，得到權值檔案後儲存，然後回到實驗室，沒有多卡的環境，用單卡訓練，載入模型時出錯，因為單卡機器上，沒有使用DataParallel來載入模型，所以會出現載入錯誤。

Pytorch中GPU訓練好模型CPU下使用

技術標籤：PyTorch深度學習 GPU訓練模型在CPU下使用今天我想試試那個SkyAR,但是我沒找到GPU的電腦我就想在CPU下使用GPU訓練好的模型，使用的時遇到了下面這個問題

pytorch 指定gpu訓練與多gpu並行訓練示例

一. 指定一個gpu訓練的兩種方法： 1.程式碼中指定 import torch torch.cuda.set_device(id)

解決Pytorch 載入訓練好的模型遇到的error問題

這是一個非常愚蠢的錯誤 debug的時候要好好看error資訊提醒自己切記好好對待error！切記！切記！

Pytorch儲存模型用於測試和用於繼續訓練的區別詳解

儲存模型儲存模型僅僅是為了測試的時候，只需要 torch.save(model.state_dict,path) path 為儲存的路徑

pytorch使用horovod多gpu訓練的實現

pytorch在Horovod上訓練步驟分為以下幾步： import torch import horovod.torch as hvd # Initialize Horovod 初始化horovod

[PyTorch 學習筆記] 7.3 使用 GPU 訓練模型

本章程式碼： https://github.com/zhangxiann/PyTorch_Practice/blob/master/lesson7/cuda_use.py https://github.com/zhangxiann/PyTorch_Practice/blob/master/lesson7/multi_gpu.py

Pytorch多GPU訓練

技術標籤：計算機視覺PytorchpytorchGPU Pytorch多GPU訓練 1. torch.nn.DataParallel torch.nn.DataParallel()這個主要適用於單機多卡。個人一般比較喜歡在程式開始前，import包之後使用os.environ[\'CUDA_VISIB

pytorch載入預訓練模型後,實現訓練指定層

1、有了已經訓練好的模型引數，對這個模型的某些層做了改變，如何利用這些訓練好的模型引數繼續訓練：

Pytorch.nn.conv2d 過程驗證方式(單,多通道卷積過程)

今天在看文件的時候，發現pytorch 的conv操作不是很明白，於是有了一下記錄首先提出兩個問題：

解決Pytorch訓練過程中loss不下降的問題

在使用Pytorch進行神經網路訓練時，有時會遇到訓練學習率不下降的問題。出現這種問題的可能原因有很多，包括學習率過小，資料沒有進行Normalization等。不過除了這些常規的原因，還有一種難以發現的原因：在計算loss

Pytorch 多塊GPU的使用詳解

注：本文針對單個伺服器上多塊GPU的使用，不是多伺服器多GPU的使用。在一些實驗中，由於Batch_size的限制或者希望提高訓練速度等原因，我們需要使用多塊GPU。本文針對Pytorch中多塊GPU的使用進行說明。

pytorch多GPU並行運算的實現

Pytorch多GPU執行設定可用GPU環境變數。例如，使用0號和1號GPU\' os.environ[\"CUDA_VISIBLE_DEVICES\"] = \'0,1\'

Pytorch 儲存模型生成圖片方式

三通道陣列轉成彩色圖片 img=np.array(img1) img=img.reshape(3,img1.shape[2],img1.shape[3]) img=(img+0.5)*255##img做過歸一化處理，【-0.5，0.5】

PyTorch載入預訓練模型例項(pretrained)

使用預訓練模型的程式碼如下： # 載入預訓練模型 resNet50 = models.resnet50(pretrained=True)

pytorch 使用載入訓練好的模型做inference

前提：模型引數和結構是分別儲存的 1、構建模型(# load model graph) model = MODEL()

解決在keras中使用model.save()函式儲存模型失敗的問題

我使用的是anaconda安裝的環境，其中有一個是h5py，自動安裝的是2.7.0的版本，這個版本會導致儲存模型時python奔潰。

解決Pytorch自定義層出現多Variable共享記憶體錯誤問題

錯誤資訊: RuntimeError: in-place operations can be only used on variables that don\'t share storage with any other variables,but detected that there are 4 objects sharing it

Tensorflow-gpu訓練SSD時遇到的問題及解決方法

訓練環境與步驟參考連結： https://www.cnblogs.com/hayley111/p/12918678.html 問題一：使用GTX2080的顯示卡，在batch_size只有8的情況下，訓練速度只有2-3秒每步。

pytorch 讀取和儲存模型引數

只儲存引數資訊載入 checkpoint = torch.load(opt.resume) model.load_state_dict(checkpoint) 儲存

解決pytorch多GPU訓練儲存的模型,在單GPU環境下加載出錯問題

相關推薦