pytorch學習筆記（十七）：python 端擴充套件 pytorch

阿新 • • 發佈：2019-01-05

pytorch 雖然提供了很多的 op 使得我們很容易的使用。但是當已有的 op 無法滿足我們的要求的時候，那就需要自己動手來擴充套件。 pytorch 提供了兩種方式來擴充套件 pytorch 的基礎功能。

通過繼承 autograd.Function
通過 C 來擴充套件

本篇部落格主要介紹繼承 autograd.Function 來擴充套件 pytorch。

繼承 autograd.Function 的子類只需要實現兩個靜態方法：

forward ：計算 op 的前向過程.
- 在執行 forward 之前，Variable 引數已經被轉換成了 Tensor
- forward 的形參可以有預設引數，預設引數可以是任意 python 物件。
- 可以返回任意多個 Tensor
- 裡面可以使用任何 python 操作，但是 return 的值必須是 Tensor !!!
backward ：計算梯度，
- forward 返回幾個值，這裡就需要幾個形參，還得外加一個 ctx。
- forward 有幾個形參（不包含 ctx），backward 就得返回幾個值。
- bacward 實參也是 Variable 。
- backward 返回的得是 Variable。

一個 Demo（來自官網）

class LinearFunction(Function) 
:
    # forward 和 backward 都得是 靜態方法！！！！！
    @staticmethod
    # bias 是個可選引數，有個 預設值 None
    def forward(ctx, input, weight, bias=None):
        # input，weight 都已經變成了 Tensor
        # 用 ctx 把該存的存起來，留著 backward 的時候用
        ctx.save_for_backward(input, weight, bias)
        output = input.mm(weight.t())
        if 
 bias is not None:
            output += bias.unsqueeze(0).expand_as(output)
        return output

    # 由於 forward 只有一個 返回值，所以 backward 只需要一個引數 接收 梯度。
    @staticmethod
    def backward(ctx, grad_output):
        # grad_output 是 Variable 型別。
        # 在開頭的地方將儲存的 tensor 給 unpack 了
        # 然後 給 所有應該返回的 梯度 以 None 初始化。
        # saved_variables 返回的是 Variable！！！ 不是 Tensor 了。
        input, weight, bias = ctx.saved_variables
        grad_input = grad_weight = grad_bias = None

        # needs_input_grad 檢查是可選的。如果想使得 程式碼更簡單的話，可以忽略。
        # 給不需要梯度的 引數返回梯度 不是一個錯誤。
        # 返回值 的個數 需要和 forward 形參的個數（不包含 ctx）一致
        if ctx.needs_input_grad[0]:
            grad_input = grad_output.mm(weight)
        if ctx.needs_input_grad[1]:
            grad_weight = grad_output.t().mm(input)
        if bias is not None and ctx.needs_input_grad[2]:
            grad_bias = grad_output.sum(0).squeeze(0)
        # 梯度的順序和 forward 形參的順序要對應。
        return grad_input, grad_weight, grad_bias

關於 ctx

save_for_backward 只能存 tensor, None, 其餘都不能存。
save_for_backward 只儲存 forward 的實參，或者 forward 的返回值。

上面就是繼承 Function 的全過程，然後該怎麼使用呢？

# input, weight, 是 Variable
def linear(input, weight, bias=None):
    # 一定是要 通過呼叫 apply 來用的。 Function.apply 中估計做了不少事情。
    return LinearFunction.apply(input, weight, bias)

也可以將 LinearFunction 封裝到 nn.Module 裡面，以便更簡單的使用。

檢查梯度計算是否正確

pytorch 提供了一個簡單的介面用來檢查定義的梯度計算是否正確

from torch.autograd import gradcheck
# Check gradients computed via small finite differences against analytical gradients

# 檢查的是 inputs 中 requires_grad=True 的梯度，
# 一定要記得 double() 一下！！！！！！
input = (Variable(torch.randn(20, 20).double(), requires_grad=True),
             Variable(torch.randn(30, 20).double(), requires_grad=True),)
test = gradcheck(LinearFunction.apply, input, eps=1e-6, atol=1e-4)
# 如果通過，最後會列印一個 True
print(test)

總結

forward 的形參是 Tensor， return 的也是 Tensor
backward 的形參是 Variable， return 也需要是 Variable
gradcheck 的時候，記得將 Tensor 的型別轉成 double，使用 float 會導致檢查失敗。

GlobalMaxPool例子

class GlobalMaxPool(Function):
    @staticmethod
    def forward(ctx, inputs):
        bs, c, h, w = inputs.size()
        flatten_hw = inputs.view(bs, c, -1)
        max_val, indices = torch.max(flatten_hw, dim=-1, keepdim=True)
        max_val = max_val.view(bs, c, 1, 1)
        ctx.save_for_backward(inputs, indices)
        # 只有返回 indices， 才讓 save_for_backward。。。 迫不得已。
        return max_val, indices

    # This function has only a single output, so it gets only one gradient
    @staticmethod
    def backward(ctx, grad_max_val, grad_indices):
        inputs, indices = ctx.saved_variables

        bs, c, h, w = inputs.size()
        grad_inputs = inputs.data.new().resize_as_(inputs.data).zero_().view(bs, c, -1)
        grad_inputs.scatter_(-1, indices.data,
                             torch.squeeze(grad_max_val.data).contiguous().view(bs, c, 1))
        grad_inputs = grad_inputs.view_as(inputs.data)

        return Variable(grad_inputs, volatile=grad_max_val.volatile)


def global_max_pool(input):
    return GlobalMaxPool.apply(input)


if __name__ == '__main__':
    in_ = Variable(torch.randn(2, 1, 3, 3).double(), requires_grad=True)
    res, _ = global_max_pool(in_)
    # print(res)

    res.sum().backward()
    res = gradcheck(GlobalMaxPool.apply, (in_,))
    print(res)

pytorch學習筆記（十七）：python 端擴充套件 pytorch

pytorch 雖然提供了很多的 op 使得我們很容易的使用。但是當已有的 op 無法滿足我們的要求的時候，那就需要自己動手來擴充套件。 pytorch 提供了兩種方式來擴充套件 pytorch 的基礎

Java學習筆記（十七）：super關鍵字

mage cnblogs 分享關鍵字 super關鍵字 log .cn nbsp java Java學習筆記（十七）：super關鍵字

R語言學習筆記（十七）：data.table包中melt與dcast函數的使用

eas table variable mil pat efault ast 函數 pre melt函數可以將寬數據轉化為長數據 dcast函數可以將長數據轉化為寬數據 > DT = fread("melt_default.csv") > DT

javaweb學習筆記（十七）：JDBC（3）

目錄 1.模擬事務回滾 2.BeanUtils元件 3.元資料 1.模擬事務回滾當Jdbc程式向資料庫獲得一個Connection物件時，預設情況下這個Connection物件會自動向資料庫提交在它上面傳送的SQL語句。若想關閉這種預設提交方式，讓多條SQL

機器學習筆記（十七）：TensorFlow實戰九（經典卷積神經網路：ResNet）

1 - 引言我們可以看到CNN經典模型的發展從 LeNet -5、AlexNet、VGG、再到Inception，模型的層數和複雜程度都有著明顯的提高，有些網路層數更是達到100多層。但是當神經網路的層數過高時，這些神經網路會變得更加難以訓練。一個特別大的麻煩就在於訓練的時候會產

pytorch學習筆記（十一）：fine-tune 預訓練的模型

torchvision 中包含了很多預訓練好的模型，這樣就使得 fine-tune 非常容易。本文主要介紹如何 fine-tune torchvision 中預訓練好的模型。安裝 pip install torchvision 如何 fine

pytorch學習筆記（十四）： DataLoader原始碼閱讀

pytorch 資料載入部分的介面可以說是現存深度學習框架中設計的最好的，給了我們足夠的靈活性。本博文就對 pytorch 的多執行緒載入模組（DataLoader）進行原始碼上的註釋。輸入流水線 pytorch 的輸入流水線的操作順序是這

pytorch學習筆記（十二）：詳解 Module 類

Module 是 pytorch 提供的一個基類，每次我們要搭建自己的神經網路的時候都要繼承這個類，繼承這個類會使得我們搭建網路的過程變得異常簡單。本文主要關注 Module 類的內部是怎麼樣

Unity3D學習筆記（十七）：IK動畫、粒子系統和塔防

hpa 狀態 ram erl 代碼調整 tar 處理 rtu 需要新動畫系統：反向動力學動畫（IK功能）：魔獸世界（頭部動畫），神秘海域（手部動畫），人類一敗塗地（手部動畫）如何啟用（調整） 1、必須是新動畫系統Animator 設置頭、手、肘的目標點 2、動畫

我的openwrt學習筆記（十七）：openwrt uboot.bin匯出

[email protected]:/tmp# cat /proc/mtd dev: size erasesize name mtd0: 00030000 00010000 "u-boot" mtd1: 00010000 00010000 "u-boot-env" mtd2: 000

pytorch學習筆記（十六）：pytorch 寫程式碼時應該注意

當網路中有 dropout，bn 的時候。訓練的要記得 net.train(), 測試要記得 net.eval() 在測試的時候建立輸入 Variable 的時候要記得 volatile=Tru

Python學習筆記（十一）：Python函式

以Mark Lutz著的《Python學習手冊》為教程，每天花1個小時左右時間學習，爭取兩週完成。 --- 寫在前面的話 2013-7-21 22:00 學習筆記 1，def是Python中的一個可執行語句——函式並不存在，直到Python運行了def後才存

機器學習筆記（十五）：TensorFlow實戰七（經典卷積神經網路：VGG）

1 - 引言之前我們介紹了LeNet-5和AlexNet，在AlexNet發明之後，卷積神經網路的層數開始越來越複雜，VGG-16就是一個相對前面2個經典卷積神經網路模型層數明顯更多了。 VGGNet是牛津大學計算機視覺組（Visual Geometry Group）和Google

OpenCV2學習筆記（十五）：利用Cmake高速查找OpenCV函數源代碼

one 生成 img log 分享 lan 學習筆記全部 modules 在使用OpenCV時，在對一個函數的調用不是非常了解的情況下，通常希望查到該函數的官方聲明。而假設想進一步研究OpenCV的函數，則必須深入到源碼。在VS中我們能夠選中想要查

iOS學習筆記（十七）——文件操作（NSFileManager）

技術分享 append hint pbo -cp fcm object 寫入 rtmp http://blog.csdn.net/xyz_lmn/article/details/8968213 iOS的沙盒機制，應用只能訪問自己應用目錄下的文件。ios不像Androi

EF學習筆記（十一）：實施繼承

long cannot oid data- turn cati com list pac 學習總目錄：ASP.NET MVC5 及 EF6 學習筆記 - （目錄整理）上篇鏈接：EF學習筆記（十）處理並發本篇原文鏈接：Implementing Inheritance 面

Java學習筆記（十五）：import關鍵字

http 技術分享 import logs java學習筆記 .cn 關鍵字 blog ava Java學習筆記（十五）：import關鍵字

Java學習筆記（十五）：this關鍵字

bsp java image nbsp his this mage 學習筆記筆記 Java學習筆記（十五）：this關鍵字

Java學習筆記（十六）：static關鍵字

ima 關鍵字 static關鍵字 es2017 java學習筆記 sta com 筆記 nbsp Java學習筆記（十六）：static關鍵字

R語言學習筆記（十一）：廣義線性模型

學習筆記 Education 5.0 1.3 style only 可能性 div erro #Logistic 回歸 install.packages("AER") data(Affairs,package="AER") summary(Affairs) a

pytorch學習筆記（十七）：python 端擴充套件 pytorch

檢查梯度計算是否正確

總結

相關推薦