讓Faster R-CNN支援TX1的fp16(half float, float16)特性


一句話,float16的運算速度是float32運算速度的2倍。nVidia說的,資料不對不要怪我,(≖ ‿ ≖)✧



IEEE754(wiki)這裡描述各種float的規則,這裡鄙視一下百度百科。 눈_눈

float32: 負 -3.4028235E+38 到 -1.401298E-45,正 1.401298E-45 到 3.4028235E+38

float16: 半精度佔2個位元組,1位符號位,5位階碼,10位尾陣列成,精度為0.001,所以它的範圍,自己算 ,(´・ω・`) ,不會就去問老師(。◕ˇ∀ˇ◕)。


既然那麼厲害, 反正拿到了TX1,那就試試呀,(臥槽,真的不打算解釋了麼)!搞一個超大的矩陣乘,然而事實是cuda目前也只提供float16的矩陣乘運算,_(:3 」∠)_


  1. #include <algorithm>
  2. #include <iostream>
  3. #include <time.h>
  4. #include <cublas.h>
  5. #include <cublas_v2.h>
  6. #include <assert.h>
  7. #include <stdio.h>
  8. #include <cuda_fp16.h>
  9. usingnamespace std;  
  10. #define  IDX2C(i,j,leading) (((j)*(leading))+(i))
  11. typedefstruct _data *PDATA;  
  12. typedefstruct _data  
  13. {  
  14.     int _rows;  
  15.     int _cols;  
  16.     float *data;  
  17. } Data;  
  18. typedefstruct _hdata *PHDATA;  
  19. typedefstruct
  20. {  
  21.     int _rows;  
  22.     int _cols;  
  23.     half *data;  
  24. } HData;  
  25. void free_mat(PDATA mat)  
  26. {  
  27.     free(mat->data);  
  28.     free(mat);  
  29. }  
  30. typedef unsigned short uint16_t;  
  31. typedef unsigned int uint32_t;  
  32. half uint16_as_fp16 (uint16_t a)  
  33. {  
  34.     half res;  
  35. #if defined (__cplusplus)
  36.     memcpy (&res, &a, sizeof (res));  
  37. #else /* __cplusplus */
  38.     volatileunion {  
  39.         half f;  
  40.         uint16_t i;  
  41.     } cvt;  
  42.     cvt.i = a;  
  43.     res = cvt.f;  
  44. #endif /* __cplusplus */
  45.     return res;  
  46. }  
  47. uint32_t fp32_as_uint32 (float a)  
  48. {  
  49.     uint32_t res;  
  50. #if defined (__cplusplus)
  51.     memcpy (&res, &a, sizeof (res));  
  52. #else /* __cplusplus */
  53.     volatileunion {  
  54.         float f;  
  55.         uint32_t i;  
  56.     } cvt;  
  57.     cvt.f = a;  
  58.     res = cvt.i;  
  59. #endif /* __cplusplus */
  60.     return res;  
  61. }  
  62. /* host version of device function __float2half_rn() */
  63. half float2half_rn (float a)  
  64. {  
  65.     uint32_t ia = fp32_as_uint32 (a);  
  66.     uint16_t ir;  
  67.     ir = (ia >> 16) & 0x8000;  
  68.     if ((ia & 0x7f800000) == 0x7f800000) {  
  69.         if ((ia & 0x7fffffff) == 0x7f800000) {  
  70.             ir |= 0x7c00; /* infinity */
  71.         } else {  
  72.             ir = 0x7fff; /* canonical NaN */
  73.         }  
  74.     } elseif ((ia & 0x7f800000) >= 0x33000000) {  
  75.         int shift = (int)((ia >> 23) & 0xff) - 127;  
  76.         if (shift > 15) {  
  77.             ir |= 0x7c00; /* infinity */
  78.         } else {  
  79.             ia = (ia & 0x007fffff) | 0x00800000; /* extract mantissa */
  80.             if (shift < -14) { /* denormal */
  81.                 ir |= ia >> (-1 - shift);  
  82.                 ia = ia << (32 - (-1 - shift));  
  83.             } else { /* normal */
  84.                 ir |= ia >> (24 - 11);  
  85.                 ia = ia << (32 - (24 - 11));  
  86.                 ir = ir + ((14 + shift) << 10);  
  87.             }  
  88.             /* IEEE-754 round to nearest of even */
  89.             if ((ia > 0x80000000) || ((ia == 0x80000000) && (ir & 1))) {  
  90.                 ir++;  
  91.             }  
  92.         }  
  93.     }  
  94.     return uint16_as_fp16 (ir);  
  95. }  
  96. PHDATA mat_product(PHDATA mat1,PHDATA mat2)  
  97. {  
  98.     if(mat1->_cols!=mat2->_rows)  
  99.     {  
  100.         printf("this is not right\n");  
  101.             return NULL;  
  102.     }  
  103.     PHDATA mat3=new HData;  
  104.     mat3->data=(half *)malloc(sizeof(half)*(mat1->_rows)*(mat2->_cols));  
  105.     mat3->_rows=mat1->_rows;  
  106.     mat3->_cols=mat2->_cols;  
  107.     /* 
  108.      *INIT the matrix we want calculate  
  109.      * col primary 
  110.      */
  111.     {  
  112.         half *d_a,*d_b,*d_c;  
  113.         cublasInit();  
  114.         cublasAlloc((mat1->_cols)*(mat1->_rows),sizeof(half),(void **)&d_a);  
  115.         cublasAlloc((mat2->_cols)*(mat2->_rows),sizeof(half),(void **)&d_b);  
  116.         cublasAlloc((mat3->_rows)*(mat3->_cols),sizeof(half),(void **)&d_c);  
  117.         cudaMemcpy(d_a,mat1->data,sizeof(half)*(mat1->_cols)*(mat1->_rows),cudaMemcpyHostToDevice);  
  118.         cudaMemcpy(d_b,mat2->data,sizeof(half)*(mat2->_rows)*(mat2->_cols),cudaMemcpyHostToDevice);  
  119.         cublasHandle_t handle;  
  120.         cublasCreate(&handle);  
  121.         half alpha=float2half_rn(float(1.0));  
  122.         half beta=float2half_rn(float(0.0));  
  123.         cudaEvent_t start,stop;  
  124.  <span style="white-space:pre">   </span>cudaEventCreate(&start);  
  125.  <span style="white-space:pre">   </span>cudaEventCreate(&stop);  
  126.  <span style="white-space:pre">   </span>cudaEventRecord(start,0);  
  127.         cublasHgemm(handle,CUBLAS_OP_N,CUBLAS_OP_N,mat1->_rows,mat2->_cols,  
  128.             mat2->_rows,&alpha,d_a,mat1->_rows,d_b,mat2->_rows,&beta,d_c,mat1->_rows);  
  129.  <span style="white-space:pre">   </span>cudaEventRecord(stop,0);  
  130.  <span style="white-space:pre">   </span>cudaEventSynchronize(stop);  
  131.  <span style="white-space:pre">   </span>float ela=0;  
  132.  <span style="white-space:pre">   </span>cudaEventElapsedTime(&ela,start,stop);  
  133.  <span style="white-space:pre">   </span>cout<<"GPU: "<<ela<<"ms"<<endl;  
  134.         cudaMemcpy(mat3->data,d_c,sizeof(half)*(mat3->_rows)*(mat3->_cols),cudaMemcpyDeviceToHost);  
  135.         cublasFree(d_a);  
  136.         cublasFree(d_b);  
  137.         cublasFree(d_c);  
  138.         cublasShutdown();  
  139.     }  
  140.     /* need to trans the mat3*/
  141.     return mat3;  
  142. }  
  143. void ele_mat_show(PDATA mat)  
  144. {  
  145.     for (int i=0;i<mat->_rows;i++){  
  146.         for (int j=0;j<mat->_cols;j++){  
  147.             cout<<mat->data[IDX2C(i,j,mat->_rows)]<<"\t";  
  148.         }  
  149.         cout<<endl;  
  150.     }  
  151. }  
  152. float myrand()  
  153. {  
  154.     return rand()%10;  
  155. }  
  156. int main()  
  157. {  
  158.     //clock_t start,end;
  159. #if 0
  160.     for (int i=0;i<M*N;i++)  
  161.     {  
  162.         cout<<c[i]<<"\t";  
  163.     }  
  164.     cout<<endl;  
  165. #endif
  166.     PDATA mat1,mat2,mat3;  
  167.     PHDATA mat4,mat5,mat6;  
  168.     /* remember to initialize the point*/
  169.     mat1=(PDATA)malloc(sizeof(Data));  
  170.     mat2=(PDATA)malloc(sizeof(Data));  
  171.     mat3=(PDATA)malloc(sizeof(Data));  
  172.     mat4=(PHDATA)malloc(sizeof(HData));  
  173.     mat5=(PHDATA)malloc(sizeof(HData));  
  174.     mat6=(PHDATA)malloc(sizeof(HData));  
  175.     mat1->_rows=5000;  
  176.     mat1->_cols=50000;  
  177.     mat4->_rows=5000;  
  178.     mat4->_cols=50000;  
  179.     mat1->data=(float *)malloc(sizeof(float)*mat1->_rows*mat1->_cols);  
  180.     mat4->data=(half *)malloc(sizeof(half)*mat1->_rows*mat1->_cols);  
  181.     for (int i=0;i<mat1->_rows;i++)  
  182.         for (int j=0;j<mat1->_cols;j++)  
  183.             mat1->data[IDX2C(i,j,mat1->_rows)]=i+j;  
  184.     for (int i=0;i<mat1->_rows;i++)  
  185.         for (int j=0;j<mat1->_cols;j++)  
  186.             mat4->data[IDX2C(i,j,mat1->_rows)]=float2half_rn(mat1->data[IDX2C(i,j,mat1->_rows)]);  
  187.     mat2->_rows=50000;  
  188.     mat2->_cols=2000;  
  189.     mat5->_rows=50000;  
  190.     mat5->_cols=2000;  
  191.     mat2->data=(float *)malloc(sizeof(float)*mat2->_rows*mat2->_cols);  
  192.     mat5->data=(half *)malloc(sizeof(half)*mat2->_rows*mat2->_cols);  
  193.     for (int i=0;i<mat2->_rows;i++)  
  194.         for (int j=0;j<mat2->_cols;j++)  
  195.             mat2->data[IDX2C(i,j,mat2->_rows)]=i+j;  
  196.     for (int i=0;i<mat2->_rows;i++)  
  197.         for (int j=0;j<mat2->_cols;j++)  
  198.             mat5->data[IDX2C(i,j,mat2->_rows)]=float2half_rn(mat2->data[IDX2C(i,j,mat2->_rows)]);  
  199.     mat6=mat_product(mat4,mat5);  
  200.     return 0;  
  201. }  
漫長的等待之後,跑了完了, 結果是什麼呢? (´・ω・`) 

我擦咧, (╯‵□′)╯︵┻━┻還真尼瑪快了兩倍,nVidia你贏了。

那如此一來,就得開始幹活啦,讓faster rcnn支援TX1的半精度運算。


1.環境:cuda7.5,python,TX1等等 2.需要caffe支援半精運算 3.新增faster rcnn新增的層:roi_pooling_layer和smooth_L1_loss_layer 4.測試(做好後將會在我的部落格中公佈結果)


1.Faster R-CNN在TX1上執行。 2.讓mnist在TX1上跑半精運算。 3.正在重寫roi_pooling_layer和smooth_L1_loss_layer


