cuda共享記憶體與原子操作，實現計算字元直方圖

阿新 • • 發佈：2021-03-18

寫在前面

這個程式再《CUDA by Example》所給出的程式程式碼是有問題的，原先的例子程式碼將所有的資料加到直方圖陣列的第一個元素上，其他數字為零，至少我的是這樣的，所以我就自己寫了一個，並且優化了使用cpu初始化原始資料的效率（STL的多執行緒）。

程式碼在這裡

#include<cuda_runtime.h>
#include<device_launch_parameters.h>
#include<cstdio>
#include<iostream>
#include<thread>
#include<vector> 



static const int SIZE_DATA = 100 * 1024 * 1024;

unsigned char * h_getrndarray(int size)
{
	const auto cpu_maxthread = std::thread::hardware_concurrency();
	unsigned char *buffer = (unsigned char*)malloc(size*sizeof(unsigned char));
	std::vector<std::thread> thread_vec;
	const auto cpusize = size / 
 cpu_maxthread;
	auto h_thread_getrnd = [](unsigned char *data, int start, int size)
	{
		for (auto i = start; i < start + size; ++i)
			if (i < SIZE_DATA)
				data[i] = rand();
	};
	for (size_t i{}; i < cpu_maxthread; ++i)
		thread_vec.push_back(std::move(std::thread(h_thread_getrnd, buffer, 
 i*cpusize, cpusize)));
	for (auto &i : thread_vec)
		i.join();
	return buffer;
}

__global__ void histo_kernel(unsigned char* data, size_t*d_histo, long size)
{
	    __shared__  unsigned int temp[256];
	    temp[threadIdx.x] = 0;
	    __syncthreads();
	    auto i = threadIdx.x + blockIdx.x * blockDim.x;
	    auto stride = blockDim.x * gridDim.x;
	    while (i < size)
		{
			atomicAdd(&temp[data[i]], 1);
	        i += stride;
	    }
	    __syncthreads();
		atomicAdd(&(d_histo[threadIdx.x]), temp[threadIdx.x]);
}

int main()
{
	const auto buffer_sizeof = sizeof(unsigned char)*SIZE_DATA;
	const auto histo_sizeof = sizeof(size_t) * 256;
	unsigned char *buffer = h_getrndarray(SIZE_DATA);
	size_t histo[256] = {};
	unsigned char *d_buffer;
	size_t *d_histo;
	cudaMalloc(&d_buffer, buffer_sizeof);
	cudaMemcpy(d_buffer, buffer, buffer_sizeof, cudaMemcpyHostToDevice);
	cudaMalloc(&d_histo, histo_sizeof);
	cudaMemset(d_histo, 0, histo_sizeof); //初始化
	cudaDeviceProp  prop;
	cudaGetDeviceProperties(&prop, 0);
	auto blocks = prop.multiProcessorCount;
	histo_kernel << <blocks *2, 256 >> >(d_buffer, d_histo, SIZE_DATA);
	cudaMemcpy(histo, d_histo, histo_sizeof, cudaMemcpyDeviceToHost);
	for (char i = 0; i < 256; ++i)
		std::cout << i << " : " << histo[i] <<" times."<< std::endl;

   //cpu版***********
	for (size_t i{}; i < SIZE_DATA; ++i)
	{
		++histo[buffer[i]];
	}
	for (auto &i : histo)
		std::cout << i << ", " << std::endl;
	//***********//
	free(buffer);
}

這是部分的結果：
在這裡插入圖片描述

cuda共享記憶體與原子操作，實現計算字元直方圖

寫在前面這個程式再《CUDA by Example》所給出的程式程式碼是有問題的，原先的例子程式碼將所有的資料加到直方圖陣列的第一個元素上，其他數字為零，至少我的是這樣的，所以我就自己寫了一個，並且優化了使用cpu初

python每日一練：利用切片操作，實現一個trim()函式，去除字串首尾的空格，注意不要呼叫str的strip()方法

本文內容皆為作者原創，碼字不易，如需轉載，請註明出處：https://www.cnblogs.com/temari/p/13411894.html

詳解C++11原子型別與原子操作

1.認識原子操作原子操作就是在多執行緒程式中“最小的且不可並行化的”操作，意味著多個執行緒訪問同一個資源時，有且僅有一個執行緒能對資源進行操作。通常情況下原子操作可以通過互斥的訪問方式來保證，例如Linux

Python 爬蟲與 tkinter 介面，實現歷史天氣查詢

文章目錄一、實現效果1. python程式碼2. 執行效果二、基本思路1. 爬蟲部分2. tkinter介面

10 CAS與原子操作

10 CAS與原子操作第十章樂觀鎖和悲觀鎖 10.1 樂觀鎖與悲觀鎖的概念鎖可以從不同的角度分類。其中，樂觀鎖和悲觀鎖是一種分類方式。

cuda共享記憶體

技術標籤：函式cudac語言共享記憶體一、共享記憶體的概念共享記憶體實際上是可受使用者控制的一級快取。申請共享記憶體後，其內容在每一個用到的block被複制一遍，使得在每個block內，每一個thread都可以訪

12 _ atomic：要保證原子操作，一定要使用這幾種方法

前面我們在學習Mutex、RWMutex等併發原語的實現時，你可以看到，最底層是通過atomic包中的一些原子操作來實現的。當時，為了讓你的注意力集中在這些原語的功能實現上，我並沒有展開介紹這些原子操作是幹什麼用的。

英特爾銳炫顯示卡可與 CPU“交火”，實現超級解碼、超級算力

4 月 3 日訊息，英特爾在釋出 Xe Max 獨顯的時候提出了 Deep Link 概念，讓英特爾 CPU 核顯與英特爾獨顯同時處理一項任務，實現更高的效能。隨著銳炫獨顯的釋出，英特爾詳細介紹了其Deep Link 功能，稱其擁有動態功

c++ 11 14 17 20後的新特性總結三：執行緒、期物、互斥量與臨界區、條件變數、原子操作、記憶體模型

技術標籤：C++技術 c++併發與同步特性 thread、future、mutex、lock、atomic、memory_order

Rust 生命週期太難學、最想實現與 C++ 互操作，Rust 2020 調查報告發布！

在這裡插入圖片描述編譯 | 蘇宓頭圖 | CSDN 下載自東方 IC 出品 | CSDN（ID：CSDNnews）

Java如何實現圖片的疊加與拼接操作

關於Java實現圖片的疊加與拼接的文章網路上確實很多，碰巧小編開發工作中也遇到這些問題，就做了簡要的梳理，作為筆記以備不時之需。

PostgreSQL實現批量插入、更新與合併操作的方法

前言就在 2019 年 1 月份微軟收購了 PostgreSQL 資料庫的初創公司 CitusData,在雲資料庫方面可以增強與 AWS 的竟爭。AWS 的 RDS 兩大開源資料庫就是 MySQL(Aurora 和 MariaDB 是它的變種) 和 PostgreSQL。

python multiprocessing多程序變數共享與加鎖的實現

python多程序和多執行緒是大家會重點了解的部分，因為很多工作如果並沒有前後相互依賴關係的話其實順序並不是非常的重要，採用順序執行的話就必定會造成無謂的等待，任憑cpu和記憶體白白浪費，這是我們不想看到的。

Golang使用lua指令碼實現redis原子操作

目錄 [redis 呼叫Lua指令碼](#redis 呼叫Lua指令碼) [redis+lua 實現評分排行榜實時更新](#redis+lua 實現評分排行榜實時更新)

基於python實現FTP檔案上傳與下載操作（ftp&sftp協議）

前言 FTP(File Transfer Protocol)是檔案傳輸協議的簡稱。用於Internet上的控制檔案的雙向傳輸。同時，它也是一個應用程式（Application）。使用者可以通過它把自己的PC機與世界各地所有執行FTP協議的伺

Pytorch資料拼接與拆分操作實現圖解

1、cat：拼接直接合並資料 2、stack拼接：與cat不同的是，stack建立了一個新的維度，在拼接的同時，給資料增加了類別。並且stack的所有資料維度必須一致。

opencv 實現特定顏色線條提取與定位操作

本篇文章通過呼叫opencv裡的函式簡單的實現了對影象裡特定顏色提取與定位，以此為基礎，我們可以實現對特定顏色物體的前景分割與定位，或者特定顏色線條的提取與定位

pdfjs優化，實現按需載入，節省流量和記憶體

1 問題　　當使用pdfjs來實現預覽功能的時候，遇到了2個問題：　　一是頻寬佔用過大，會下載整個pdf檔案，這對部署在公網的應用來說，成本壓力很大，因為雲服務頻寬是很貴的。

寫一函式，實現兩個字串的比較。即自己寫一個strcmp函式,函式原型為int strcmp(char * p1 ,char * p2); 設p1指向字串s1, p2指向字串s2。要求當s1=s2時,返回值為0;若s1≠s2,返回它們二者第1個不同字元的ASCII碼差值(如"BOY"與"BAD"

寫一函式，實現兩個字串的比較。即自己寫一個strcmp函式,函式原型為int strcmp(char * p1 ,char * p2); 設p1指向字串s1, p2指向字串s2。要求當s1=s2時,返回值為0;若s1≠s2,返回它們二者第1個不同字元的ASCII碼差值(如

使用執行緒池+CountDownLatch 實現多執行緒協同工作結果彙總（適用於資料運算分析，資料庫操作，網頁爬蟲）

多執行緒資料去重使用示例： public void obtainSimilarityRate() { List<FgTestR3> zjFg = list((new QueryWrapper<FgTestR3>())

cuda共享記憶體與原子操作，實現計算字元直方圖

寫在前面

程式碼在這裡

相關推薦