pytorch學習筆記(二):gradient
阿新 • • 發佈:2018-12-30
gradient
在BP
的時候,pytorch
是將Variable
的梯度放在Variable
物件中的,我們隨時都可以使用Variable.grad
得到對應Variable
的grad
。剛建立Variable
的時候,它的grad
屬性是初始化為0.0
的。
import torch
from torch.autograd import Variable
w1 = Variable(torch.Tensor([1.0,2.0,3.0]),requires_grad=True)#需要求導的話,requires_grad=True屬性是必須的。
w2 = Variable(torch.Tensor([1.0,2.0,3.0 ]),requires_grad=True)
print(w1.grad)
print(w2.grad)
- 1
- 2
- 3
- 4
- 5
- 6
- 1
- 2
- 3
- 4
- 5
- 6
Variable containing:
0
0
0
[torch.FloatTensor of size 3]
Variable containing:
0
0
0
[torch.FloatTensor of size 3]
從下面這兩段程式碼可以看出,Variable
的grad
是累加的即: Variable.grad=Variable.grad+new_grad
d = torch.mean(w1)
d.backward()
w1.grad
- 1
- 2
- 3
- 1
- 2
- 3
Variable containing: 0.3333 0.3333 0.3333 [torch.FloatTensor of size 3]
d.backward()
w1.grad
- 1
- 2
- 1
- 2
Variable containing:
0.6667
0.6667
0.6667
[torch.FloatTensor of size 3]
既然累加的話,那我們如何置零呢?
w1.grad.data.zero_()
w1.grad
- 1
- 2
- 1
- 2
Variable containing:
0
0
0
[torch.FloatTensor of size 3]
通過上面的方法,就可以將grad
置零。通過打印出來的資訊可以看出,w1.grad
其實是Tensor
。現在可以更清楚的理解一下Variable
與Tensor
之間的關係,上篇部落格已經說過,Variable
Tensor
的一個wrapper
,那麼到底是什麼樣的wrapper
呢?從目前的掌握的知識來看,一個是儲存weights
的Tensor
,一個是儲存grad
的Variable
。Variable
的一些運算,實際上就是裡面的Tensor
的運算。 pytorch
中的所有運算都是基於Tensor
的,Variable
只是一個Wrapper
,Variable
的計算的實質就是裡面的Tensor
在計算。Variable
預設代表的是裡面儲存的Tensor
(weights
)。理解到這,我們就可以對grad
進行隨意操作了。
# 獲得梯度後,如何更新
learning_rate = 0.1
#w1.data -= learning_rate * w1.grad.data 與下面式子等價
w1.data.sub_(learning_rate*w1.grad.data)# w1.data是獲取儲存weights的Tensor
- 1
- 2
- 3
- 4
- 1
- 2
- 3
- 4
這裡更新的時候為什麼要用Tensor
更新,為什麼不直接用Variable
? Variable
更多是用在feedforward
中的,因為feedforward
是需要記住各個Tensor
之間聯絡的,這樣,才能正確的bp
。Tensor
不會記錄路徑。而且,如果使用Variable
操作的話,就會造成迴圈圖了(猜測)。