WHAT IS A STATE_DICT IN PYTORCH
在PyTorch中,模型的可學習引數(即權重和偏差)torch.nn.Module
包含在模型的引數中(通過訪問model.parameters()
)。Astate_dict
只是一個Python字典物件,它將每個圖層對映到其引數張量。
Introduction
如果有興趣從PyTorch儲存或載入模型,則state_dict是不可或缺的實體。由於state_dict
物件是Python字典,因此可以輕鬆地儲存,更新,更改和還原它們,從而為PyTorch模型和優化器增加了很多模組化。請注意,只有具有可學習引數的層(卷積層,線性層等)和已註冊的緩衝區(batchnorm的running_mean)才在模型的中具有條目state_dict
torch.optim
)也有一個state_dict
,其中包含有關優化器狀態以及所用超引數的資訊。在文中,我們將看到如何state_dict
與簡單模型一起使用。
Setup
在開始之前,需要先安裝(如果torch尚不可用)
pip install torch
Steps
- 匯入所有必需的庫以載入我們的資料
- 定義和初始化神經網路
- 初始化優化器
- 訪問模型和優化器
state_dict
1. Importnecessarylibraries for loading our data
我們將使用torch
及其子公司torch.nn
和torch.optim
。
import torchimport torch.nn as nnimport torch.optim as optim
2. Defineandintialize the neural network
舉例來說,我們將建立一個用於訓練影象的神經網路。要了解更多資訊,請參閱定義神經網路配方。
class Net(nn.Module):def __init__(self):super(Net, self).__init__()self.conv1 = nn.Conv2d(3, 6, 5)self.pool = nn.MaxPool2d(2, 2)self.conv2 = nn.Conv2d(6, 16, 5)self.fc1 = nn.Linear(16 * 5 * 5, 120)self.fc2 = nn.Linear(120, 84)self.fc3 = nn.Linear(84, 10)def forward(self, x): x = self.pool(F.relu(self.conv1(x))) x = self.pool(F.relu(self.conv2(x))) x = x.view(-1, 16 * 5 * 5) x = F.relu(self.fc1(x)) x = F.relu(self.fc2(x)) x = self.fc3(x)return xnet = Net()print(net)
3. Initialize the optimizer
我們將要用帶有momentum的SGD
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)
4. Access the model and optimizerstate_dict
現在,我們已經構建了模型和優化器,我們可以瞭解它們各自state_dict
屬性中保留的內容。
# Print model's state_dict print("Model's state_dict:") for param_tensor in net.state_dict(): print(param_tensor, "\t", net.state_dict()[param_tensor].size()) print() # Print optimizer's state_dict print("Optimizer's state_dict:") for var_name in optimizer.state_dict(): print(var_name, "\t", optimizer.state_dict()[var_name])
此資訊與儲存和載入模型和優化器以供將來使用有關。
接下來,給大家介紹一下租用GPU做實驗的方法,我們是在智星雲租用的GPU,使用體驗很好。具體大家可以參考:智星雲官網:http://www.ai-galaxy.cn/,淘寶店:https://shop36573300.taobao.com/公眾號:智星AI