pytorch中使用cuda擴充套件的實現示例

阿新 • • 發佈：2020-02-12

以下面這個例子作為教程，實現功能是element-wise add；

（pytorch中想呼叫cuda模組，還是用另外使用C編寫介面指令碼）

第一步：cuda程式設計的原始檔和標頭檔案

// mathutil_cuda_kernel.cu
// 標頭檔案，最後一個是cuda特有的
#include <curand.h>
#include <stdio.h>
#include <math.h>
#include <float.h>
#include "mathutil_cuda_kernel.h"

// 獲取GPU執行緒通道資訊
dim3 cuda_gridsize(int n)
{
  int k = (n - 1) / BLOCK + 1;
  int x = k;
  int y = 1;
  if(x > 65535) {
    x = ceil(sqrt(k));
    y = (n - 1) / (x * BLOCK) + 1;
  }
  dim3 d(x,y,1);
  return d;
}
// 這個函式是cuda執行函式，可以看到細化到了每一個元素
__global__ void broadcast_sum_kernel(float *a,float *b,int x,int y,int size)
{
  int i = (blockIdx.x + blockIdx.y * gridDim.x) * blockDim.x + threadIdx.x;
  if(i >= size) return;
  int j = i % x; i = i / x;
  int k = i % y;
  a[IDX2D(j,k,y)] += b[k];
}


// 這個函式是與c語言函式連結的介面函式
void broadcast_sum_cuda(float *a,cudaStream_t stream)
{
  int size = x * y;
  cudaError_t err;
  
  // 上面定義的函式
  broadcast_sum_kernel<<<cuda_gridsize(size),BLOCK,stream>>>(a,b,x,size);

  err = cudaGetLastError();
  if (cudaSuccess != err)
  {
    fprintf(stderr,"CUDA kernel failed : %s\n",cudaGetErrorString(err));
    exit(-1);
  }
}

#ifndef _MATHUTIL_CUDA_KERNEL
#define _MATHUTIL_CUDA_KERNEL

#define IDX2D(i,j,dj) (dj * i + j)
#define IDX3D(i,dj,dk) (IDX2D(IDX2D(i,dj),dk))

#define BLOCK 512
#define MAX_STREAMS 512

#ifdef __cplusplus
extern "C" {
#endif

void broadcast_sum_cuda(float *a,cudaStream_t stream);

#ifdef __cplusplus
}
#endif

#endif

第二步：C程式設計的原始檔和標頭檔案（介面函式）

// mathutil_cuda.c
// THC是pytorch底層GPU庫
#include <THC/THC.h>
#include "mathutil_cuda_kernel.h"

extern THCState *state;

int broadcast_sum(THCudaTensor *a_tensor,THCudaTensor *b_tensor,int y)
{
  float *a = THCudaTensor_data(state,a_tensor);
  float *b = THCudaTensor_data(state,b_tensor);
  cudaStream_t stream = THCState_getCurrentStream(state);

  // 這裡呼叫之前在cuda中編寫的介面函式
  broadcast_sum_cuda(a,stream);

  return 1;
}

int broadcast_sum(THCudaTensor *a_tensor,int y);

第三步：編譯，先編譯cuda模組，再編譯介面函式模組（不能放在一起同時編譯）

nvcc -c -o mathutil_cuda_kernel.cu.o mathutil_cuda_kernel.cu -x cu -Xcompiler -fPIC -arch=sm_52

import os
import torch
from torch.utils.ffi import create_extension

this_file = os.path.dirname(__file__)

sources = []
headers = []
defines = []
with_cuda = False

if torch.cuda.is_available():
  print('Including CUDA code.')
  sources += ['src/mathutil_cuda.c']
  headers += ['src/mathutil_cuda.h']
  defines += [('WITH_CUDA',None)]
  with_cuda = True

this_file = os.path.dirname(os.path.realpath(__file__))

extra_objects = ['src/mathutil_cuda_kernel.cu.o']  # 這裡是編譯好後的.o檔案位置
extra_objects = [os.path.join(this_file,fname) for fname in extra_objects]


ffi = create_extension(
  '_ext.cuda_util',headers=headers,sources=sources,define_macros=defines,relative_to=__file__,with_cuda=with_cuda,extra_objects=extra_objects
)

if __name__ == '__main__':
  ffi.build()

第四步：呼叫cuda模組

from _ext import cuda_util #從對應路徑中呼叫編譯好的模組

a = torch.randn(3,5).cuda()
b = torch.randn(3,1).cuda()
mathutil.broadcast_sum(a,*map(int,a.size()))

# 上面等價於下面的效果：

a = torch.randn(3,5)
b = torch.randn(3,1)
a += b

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

Pytorch中的VGG實現修改最後一層FC

https://discuss.pytorch.org/t/how-to-modify-the-final-fc-layer-based-on-the-torch-model/766/12 That\'s because vgg19 doesn\'t have a fc member variable. Instead,it has a

pytorch中使用cuda擴充套件的實現示例

以下面這個例子作為教程，實現功能是element-wise add；（pytorch中想呼叫cuda模組，還是用另外使用C編寫介面指令碼）

PyTorch中的C++擴充套件實現

今天要聊聊用 PyTorch 進行 C++ 擴充套件。在正式開始前，我們需要了解 PyTorch 如何自定義module。這其中，最常見的就是在 python 中繼承torch.nn.Module，用 PyTorch 中已有的 operator 來組裝成自己的模組。這種

PyTorch 中的傅立葉卷積實現示例

卷積卷積在資料分析中無處不在。幾十年來，它們一直被用於訊號和影象處理。最近，它們成為現代神經網路的重要組成部分。如果你處理資料的話，你可能會遇到錯綜複雜的問題。

Pytorch中實現只匯入部分模型引數的方式

我們在做遷移學習，或者在分割，檢測等任務想使用預訓練好的模型，同時又有自己修改之後的結構，使得模型檔案儲存的引數，有一部分是不需要的（don\'t expected）。我們搭建的網路對儲存檔案來說，有一部分引數也是沒

Pytorch中index_select() 函式的實現理解

函式形式： index_select( dim,index ) 引數： dim：表示從第幾維挑選資料，型別為int值；

Python中生成一個指定長度的隨機字串實現示例

方法一：定義一個函式，引數為所要生成隨機字串的長度。通過random.randint(a,b)方法得到隨機數字，具體函式如下：

ASP.NET MVC中使用log4net的實現示例

今天自己要弄一個日誌記錄功能，以前也弄過但是都忘了，今天又弄了一下花了幾十分鐘，在此記錄一下

PyTorch中Tensor的資料統計示例

張量範數：torch.norm(input,p=2) → float 返回輸入張量 input 的 p 範數舉個例子： >>> import torch

PHP使用openssl擴充套件實現加解密方法示例

從PHP7版本開始很多依賴mcrypt擴充套件的方法都不支援了，PHP7.2.0及以上版本已經完全不支援mcrypt擴充套件的任何方法了，所以PHP7及以上版本都應該使用openssl擴充套件來實現加解密。

在pytorch中實現只讓指定變數向後傳播梯度

pytorch中如何只讓指定變數向後傳播梯度？（或者說如何讓指定變數不參與後向傳播？）

如何在Django中使用聚合的實現示例

在本文中，我想向您介紹如何在Django中使用聚合，聚合的含義是“內容相關項的集合，以便它們可以顯示或連結到”。在Django中，我們使用的情況例如：

Centos中yum方式安裝java的實現示例

檢視CentOS自帶JDK是否已安裝 [root@test ~]# yum list installed |grep java 若有自帶安裝的JDK，應如下操作進行解除安裝CentOS系統自帶Java環境

spring中使用mybatis實現批量插入的示例程式碼

有3種實現方式：foreach，spring事務，以及ExecutorType.BATCH. 1. foreach方式這種方式實際是對SQL語句進行拼接，生成一個長長的SQL，對很多變數進行繫結。如果資料量不大（1000個以內），可以用這種方式。如果資

SpringBoot中使用Cookie實現記住登入的示例程式碼

最近在做專案，甲方提出每次登入都要輸入密碼，會很麻煩，要求實現一個記住登入狀態的功能，於是便使用 Cookie 實現該功能

python中tkinter視窗位置\座標\大小等實現示例

正在嘗試著做一個比較完善的畫圖軟體，計劃使用tkinter庫中的canvas控制元件來做，然後正在攻關圖形項位置、座標、大小及其他屬性項的儲存和載入的問題，剛好需要用到座標、位置的知識，因此作為這個畫圖軟體的附帶產

在PyTorch中使用深度自編碼器實現影象重建

作者|DR. VAIBHAV KUMAR 編譯|VK 來源|Analytics In Diamag 人工神經網路有許多流行的變體，可用於有監督和無監督學習問題。自編碼器也是神經網路的一個變種，主要用於無監督學習問題。

SpringBoot中預設快取實現方案的示例程式碼

在上一節中，我帶大家學習了在Spring Boot中對快取的實現方案，尤其是結合Spring Cache的註解的實現方案，接下來在本章節中，我帶大家通過程式碼來實現。

SpringBoot中整合Shiro實現許可權管理的示例程式碼

之前在 SSM 專案中使用過 shiro，發現 shiro 的許可權管理做的真不錯，但是在 SSM 專案中的配置太繁雜了，於是這次在 SpringBoot 中使用了 shiro，下面一起看看吧

Vue.js中provide/inject實現響應式資料更新的方法示例

vue.js官方文件：https://cn.vuejs.org/v2/api/#provide-inject 首先假設我們在祖輩時候傳入進來是個動態的資料，官方不是說如果你傳入了一個可監聽的物件，那麼其物件還是可響應的麼？

pytorch中使用cuda擴充套件的實現示例

相關推薦