Cuda中當數組數大於線程數的處理方法

阿新 • • 發佈：2018-08-11

tde emc -c com -i str delet different target

參考stackoverflow一篇帖子的處理方法：https://stackoverflow.com/questions/26913683/different-way-to-index-threads-in-cuda-c

代碼中cuda_gridsize函數參考yolo。

代碼如下：

#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include <stdio.h>
#include <stdlib.h>
#include <iostream>
#include  
<ctime>

using namespace std;
#define BLOCK 512

dim3 cuda_gridsize(size_t n){
    size_t k = (n - 1) / BLOCK + 1;
    unsigned int x = k;
    unsigned int y = 1;
    if (x > 65535){
        x = ceil(sqrt(k));
        y = (n - 1) / (x*BLOCK) + 1;
    }
    dim3 d = { x, y, 1 };
     
//printf("%ld %ld %ld %ld\n", n, x, y, x*y*BLOCK);
    return d;
}

__global__ void gpuCalc(unsigned char *img,long H,long W)
{
    long threadId_2D = threadIdx.x + threadIdx.y*blockDim.x;
    long blockId_2D = blockIdx.x + blockIdx.y*gridDim.x;
    long i = threadId_2D + (blockDim.x*blockDim.y)*blockId_2D;
    
     
//另一種索引方式
    //long i = (gridDim.x*blockDim.x)*(threadIdx.y + blockDim.y*blockIdx.y) + (threadIdx.x + blockDim.x*blockIdx.x);

    while (i < H*W){
        img[i] = 255 - img[i];
        i += (gridDim.x*blockDim.x)*(gridDim.y*blockDim.y);
    }
}

void addWithCuda(unsigned char *img, long H,long W)
{
    unsigned char *dev_a = 0;

    cudaSetDevice(0);

    cudaMalloc((void**)&dev_a, H*W * sizeof(unsigned char));
    cudaMemcpy(dev_a, img, H*W * sizeof(unsigned char), cudaMemcpyHostToDevice);

    gpuCalc<<<cuda_gridsize(H*W),BLOCK>> >(dev_a, H, W);

    cudaMemcpy(img, dev_a, H*W * sizeof(unsigned char), cudaMemcpyDeviceToHost);
    cudaFree(dev_a);

    cudaGetLastError();
}

void cpuCalc(unsigned char *img,long W, long H)
{
    for (long i = 0; i < H*W; i++)
        img[i] = 255 - img[i];
}

int main()
{
    long W = 20000;
    long H = 20000;

    unsigned char *img = new unsigned char[W*H];
    unsigned char *cmp = new unsigned char[W*H];

    for (long i = 0; i < H*W; i++)
        img[i] = rand() % 100;

    memcpy(cmp, img, H*W);

    cpuCalc(img, W, H);
    printf("cpu calc end\n");

    addWithCuda(img, W,H);
    printf("gpu calc end\n");

    bool flag = true;
    for (long i = 0; i < H*W; i++)
    {
        if (img[i] != cmp[i])
        {
            printf("no pass\n");
            flag = false;
            break;
        }
    }
    if (flag)
        printf("pass");

    delete[] cmp;
    delete[] img;
    getchar();

    return 0;
}

Cuda中當數組數大於線程數的處理方法

tde emc -c com -i str delet different target 參考stackoverflow一篇帖子的處理方法：https://stackoverflow.com/questions/26913683/different-way-to-index

WINDOWS操作系統中可以允許最大的線程數

argv diff track after abi eal 目的 includes 64gb 默認情況下，一個線程的棧要預留1M的內存空間而一個進程中可用的內存空間只有2G，所以理論上一個進程中最多可以開2048個線程但是內存當然不可能完全拿來作線程的棧，

Spring中使用Map、Set、List、數組、屬性集合的註入方法配置文件

查看 main list highlight 配置 spring配置 pla lec while （1）下邊的一個Java類包含了所有Map、Set、List、數組、屬性集合等這些容器，主要用於演示spring的註入配置； [java] view plain c

用於Nagios中監控服務器進程的最大線程數

90-nproc.conf nagios processes 最近在剛好一些業務經常把線程跑滿，導致服務器資源用完，所以就寫了一個腳本用於Nagios下相關進程的最大線程數的監控，Unix的服務器上最大的線程數默認的是1024，當然在業務繁忙的服務器中這樣肯定是不夠用的，當然在實際生產環境

08.18 javascript 06 數組數組的概念創建數組讀取數組中的元素稀疏數組添加和刪除數組的元素數組遍歷多維數組數組的方法類數組對象作為數組的字符串

有序集合數組元素 .cn spa 取字符串 splice ima 一個 -1 # 數組 ### 數組的概念 * 數組是值的有序集合 * 數組中的每個值稱之為元素 * 每個元素可以是任意數據類型的值 * 每個元素都有索引（下標） * 元素的索引從0開始，按照順序遞增。

1.找出數組元素item在給定數組arr中的位置

數組a 元素 log pan urn class prototype 給定 for var a=[1,5,‘ff‘,‘g‘,‘h‘,‘sd‘]; alert(indexof(a,‘g‘)); //3

【API】獲取當前進程的線程數。

ext ssi proe first lose hand sentry roc wsize #include <Tlhelp32.h> PROCESSENTRY32 ProEntry = {0}; HANDLE hSnap = CreateT

java 實現往oracle存儲過程中傳遞array數組類型的參數

def tor except asp pri 定義 finally lean 多維註：本文來源於《 java 實現往oracle存儲過程中傳遞array數組類型的參數》最近項目中遇到通過往存儲過程傳遞數組參數的問題，浪費了N多個小時，終於有點頭緒。具體的代

74、CallContext線程數據緩存-調用上下文 System.Runtime.Remoting.Messaging,JOIN序列化過程中日期的處理

線程 none tle border img ren call rem 圖片 74、CallContext線程數據緩存-調用上下文 System.Runtime.Remoting.Messaging,JOIN序列化過程中日期的處理

PHP中數組---轉--json json----轉----數組

color decode back span ron enc encode 直接 arr php中數組-->json json-->數組1.數組轉json$json=json_encode(數組名) 數組轉json字符串 2，json轉數組$arr=json_

返回一個整數數組中最大子數組的值（程序能處理1000個元素）

src mes () 最大子數組一個 int32 圖片 http 課堂課堂練習：題目：要求返回一個整數數組中最大子數組的值要求：程序必須能處理1000個元素每個元素是int32類型的設計思路：將數組的大小定義為1000，每個元素定義

javascript中什麽是偽數組？如何將偽數組轉為標準數組？

空數組獲取 push prot 是否 for proto 運算 strong 偽數組如何獲得的？舉例： 1.獲取元素集合的時候　　　　2.arguments 如何判斷數組是不是偽數組？　　判斷arr.push是否有被定義　　arr.pop 　　Array.isA

8.7在陣列中找出出現次數大於N÷K的數

題目給定一個整形陣列arr，再給定一個整數K，列印所有出現次數大於N/K的數，如果沒有這樣的數，列印提示資訊。首先分析K=2這個特殊情況，有以下思路：排序後，取陣列中間的數。但該方法的時間複雜度為排序演算法的時間複雜度O(NlogN)。

Python中reshape的用法及多個二維數組合併為三維陣列的方法

reshape(shape) ：不改變陣列元素，返回一個shape形狀的陣列，原陣列不變。是對每行元素進行處理 resize(shape) ：與.reshape()功能一致，但修改原陣列 In [1]: a = np.arange(20) #原陣列不變 In [2]: a.reshape([

Python 多進程多線程數據共享

python 線程queue.queue 進程multiprocess.queue #!/usr/bin/env python # -*- coding:utf-8 -*- # author: Changhua Gong from multiprocessing import Process, Q

指針數組，數組指針，函數指針，main函數實質，二重指針，函數指針作為參數，泛型函數

family nbsp att 技術犯錯 nor 編譯器 pos 一個 ?? 1、指針數組數組裏面的每一個元素都是指針。指針數組的案比例如以下：易犯錯誤： 2、數組指針歸根結底還是指針，僅僅是取*的時候可以取出一整個數組出來。

js刪除數組元素、清空數組的簡單方法

clas ray 元素方法 tro class 刪除 blog 索引一、清空數組 var ary = [1,2,3,4]; ary.splice(0,ary.length);//清空數組 console.log(ary); // 輸出 []，空數組，即被清

IIS連接數、IIS並發連接數、IIS最大並發工作線程數、應用程序池的隊列長度

這就是規範性初級展示約會第一次數量企業通用關於並發你真的了解嗎？（一）前言：對於很多工作時間短或者編程經驗不足的程序員來說，大多數會覺得並發這個詞離自己太遙遠，之所以知道並發也不過是因為受那些技術大佬成天討論並發等問題耳濡目染罷了。更有甚者，一些

[51nod]1001 數組中和等於K的數對

output ray logs tput sof isf sort == 下一個給出一個整數K和一個無序數組A，A的元素為N個互不相同的整數，找出數組A中所有和等於K的數對。例如K = 8，數組A：{-1,6,5,3,4,2,9,0,8}，所有和等於8的數對包括(-

如何確定Kafka的分區數、key和consumer線程數

為什麽打包 lower 匹配到來 har mit 技術分享每一個轉自：http://www.tuicool.com/articles/Aj6fAj3 如何確定Kafka的分區數、key和consumer線程數在Kafak中國社區的qq群中，這個問題被提及的

Cuda中當數組數大於線程數的處理方法

相關推薦