CUDA系列學習（五）GPU基礎演算法: Reduce, Scan, Histogram

喵~不知不覺到了CUDA系列學習第五講，前幾講中我們主要介紹了基礎GPU中的軟硬體結構，記憶體管理，task型別等；這一講中我們將介紹3個基礎的GPU演算法：reduce，scan，histogram，它們在並行演算法中非常常用，我們在本文中分別就其功能用處，序列與並行實現進行闡述。
———-

1. Task complexity

task complexity包括step complexity（可以並行成幾個操作） & work complexity（總共有多少個工作要做）。
e.g. 下面的tree-structure圖中每個節點表示一個運算元，每條邊表示一個操作，同層edge表示相同操作，問該圖表示的task的step complexity & work complexity分別是多少。

tree operation

Ans:
step complexity: 3；
work complexity: 6。
下面會有更具體的例子。

2. Reduce

引入：我們考慮一個task：1+2+3+4+…
1) 最簡單的順序執行順序組織為((1+2)+3)+4…
2) 由於operation之間沒有依賴關係，我們可以用Reduce簡化操作，它可以減少serial implementation的步數。

2.1 what is reduce?

Reduce input:

set of elements
reduction operation
1. binary: 兩個輸入一個輸出
2. 操作滿足結合律： ([email protected])@c = [email protected]([email protected]
  
  ), 其中@表示operator
  e.g +, 按位與都符合；a^b(expotentiation)和減法都不是

2. add_tree.png

2.1.1 Serial implementation of Reduce:

reduce的每一步操作都依賴於其前一個操作的結果。比如對於前面那個例子，n個數相加，work complexity 和 step complexity都是O(n)（原因不言自明吧~）我們的目標就是並行化操作，降下來step complexity. e.g add serial reduce -> parallel reduce。

2.1.2 Parallel implementation of Reduce:

3. parallel_add.png

也就是說，我們把step complexity降到了log2n

舉個栗子，如下圖所示：
example

那麼如果對210個數做parallel reduce add，其step complexity就是10. 那麼在這個parallel reduce的第一步，我們需要做512個加法，這對modern gpu不是啥大問題，但是如果我們要對220個數做加法呢？就需要考慮到gpu數量了，如果說gpu最多能並行做512個操作，我們就應將220個數分成1024*1024(共1024組)，每次做210個數的加法。這種考慮task規模和gpu數量關係的做法有個理論叫Brent’s Theory. 下面我們具體來看：

4. brent's theory.png

也就是進行兩步操作，第一步分成1024個block，每個block做加法；第二步將這1024個結果再用1個1024個thread的block進行求和。kernel code：

__global__ void parallel_reduce_kernel(float *d_out, float* d_in){
    int myID = threadIdx.x + blockIdx.x * blockDim.x;
    int tid = threadIdx.x;

    //divide threads into two parts according to threadID, and add the right part to the left one, lead to reducing half elements, called an iteration; iterate until left only one element
    for(unsigned int s = blockDim.x / 2 ; s>0; s>>=1){
        if(tid<s){
            d_in[myID] += d_in[myID + s];
        }
        __syncthreads(); //ensure all adds at one iteration are done
    }
    if (tid == 0){
        d_out[blockIdx.x] = d_in[myId];
    }
}

Quiz: 看一下上面的code可以從哪裡進行優化？

Ans：我們在上一講中提到了global，shared & local memory的速度，那麼這裡對於global memory的操作可以更改為shared memory，從而進行提速：

__global__ void parallel_shared_reduce_kernel(float *d_out, float* d_in){
    int myID = threadIdx.x + blockIdx.x * blockDim.x;
    int tid = threadIdx.x;
    extern __shared__ float sdata[];
    sdata[tid] = d_in[myID];
    __syncthreads();

    //divide threads into two parts according to threadID, and add the right part to the left one, lead to reducing half elements, called an iteration; iterate until left only one element
    for(unsigned int s = blockDim.x / 2 ; s>0; s>>=1){
        if(tid<s){
            sdata[tid] += sdata[tid + s];
        }
        __syncthreads(); //ensure all adds at one iteration are done
    }
    if (tid == 0){
        d_out[blockIdx.x] = sdata[myId];
    }
}

優化的程式碼中還有一點要注意，就是宣告的時候記得我們第三講中說過的kernel通用表示形式：

kernel<<<grid of blocks, block of threads, shmem>>>

最後一項要在call kernel的時候宣告好，即:

parallel_reduce_kernel<<<blocks, threads, threads*sizeof(float)>>>(data_out, data_in);

好，那麼問題來了，對於這兩個版本（parallel_reduce_kernel 和 parallel_shared_reduce_kernel）, parallel_reduce_kernel比parallel_shared_reduce_kernel多用了幾倍的global memory頻寬？ Ans: 分別考慮兩個版本的讀寫操作：

parallel_reduce_kernel

Times	Read Ops	Write Ops
1	1024	512
2	512	256
3	256	128
…
n	1	1

parallel_shared_reduce_kernel

Times	Read Ops	Write Ops
1	1024	1

所以，parallel_reduce_kernel所需的頻寬是parallel_shared_reduce_kernel的3倍。

3. Scan

3.1 what is scan?

Example:
- input: 1,2,3,4
- operation: Add
- ouput: 1,3,6,10（out[i]=sum(in[0:i])）
目的：解決難以並行的問題

拍拍腦袋想想上面這個問題O(n)的一個解法是out[i] = out[i-1] + in[i].下面我們來引入scan。

Inputs to scan:

input array
操作：binary & 滿足結合律（和reduce一樣）
identity element [I op a = a], 其中I 是identity element
quiz: what is the identity for 加法，乘法，邏輯與，邏輯或？
Ans：

op	Identity
加法	0
乘法	1
邏輯或\|\|	False
邏輯與&&	True

3.2 what scan does?

I/O	content
input	[a0	a1	a2	…	an]
output	[I	a0	a0⨂a1	…	a0⨂a1⨂ …⨂an]

其中⨂是scan operator，I 是⨂的identity element

3.2.1 Serial implementation of Scan

很簡單：

int acc = identity;
for(i=0;i<elements.length();i++){
    acc = acc op elements[i];
    out[i] = acc;
}

work complexity: O(n)
step complexity: O(n)

那麼，對於scan問題，我們怎樣對其進行並行化呢？

3.2.1 Parallel implementation of Scan

考慮scan的並行化，可以平行計算n個output，每個output元素i相當於a0⨂a1⨂ …⨂ai，是一個reduce operation。

Q: 那麼問題的work complexity和step complexity分別變為多少了呢？
Ans:

step complexity:
取決於n個reduction中耗時最長的，即O(log2n)
work complexity:
對於每個output元素進行計算，總計算量為0+1+2+…+(n-1)，所以複雜度為O(n2).

可見，step complexity降下來了，可惜work complexity上去了，那麼怎麼解決呢？這裡有兩種Scan演算法：

more step efficiency	more work efficiency
hillis + steele （1986）	√
blelloch （1990）	√

Hillis + Steele

對於Scan加法問題，hillis+steele演算法的解決方案如下：

hillis + steele

即streaming’s
step 0: out[i] = in[i] + in[i-1];
step 1: out[i] = in[i] + in[i-2];
step 2: out[i] = in[i] + in[i-4];
如果元素不存在（向下越界）就記為0；可見step 2的output就是scan 加法的結果(想想為什麼，我們一會再分析)。

那麼問題來了。。。
Q: hillis + steele演算法的work complexity 和 step complexity分別為多少？

Hillis + steele Algorithm complexity
log(n)	O(n‾‾√)	O(n)	O(nlogn)	O(n^2)
work complexity	√
step complexity	√

解釋：

為了不妨礙大家思路，我在表格中將答案設為了白色，選中表格可見答案。

step complexity：
因為第i個step的結果為上一步輸出作為in, out[idx] = in[idx] + in[idx - 2^i], 所以step complexity = O(log(n))
work complexity:
workload = (n−1)+(n−2)+(n−4)+... ，共有log(n)項元素相加，所以可以近似看做一個矩陣，對應上圖，長log(n), 寬n，所以複雜度為 nlog(n)。

2 .Blelloch

基本思路：Reduce + downsweep

還是先講做法。我們來看Blelloch演算法的具體流程，分為reduce和downsweep 兩部分，如圖所示。

這裡寫圖片描述

reduce部分：
每個step對相鄰兩個元素進行求和，但是每個元素在input中只出現一次，即window size=2, step = 2的求和。
Q: reduce部分的step complexity 和 work complexity？
Ans：

Reduce part in Blelloch
log(n) O(n‾‾√) O(n) O(nlogn) O(n^2)

work complexity √

step complexity √

我們依然將答案用白色標出，請選中看答案。
downsweep部分：
簡單地說，downsweep部分的輸入元素是reduce部分鏡面反射的結果，對於每一組輸入in1 & in2有兩個輸出，左邊輸出out1 = in2，右邊輸出out2 = in1 op in2 （這裡的op就是reduce部分的op），如圖：

如上上圖中的op為加法，那舉個例子就有：in1 = 11, in2 = 10, 可得out1 = in2 = 10， out2 = in1 + in2 = 21。由此可以推出downsweep部分的所有value，如上上圖。
這裡畫圈的元素都是從reduce部分直接“天降”（鏡面反射）過來的，注意，每一個元素位置只去reduce出來該位置的最終結果，而且由於是鏡面反射，step層數越大的reduce計算結果“天降”越快，即從reduce的“天降”順序為

3, 11

1, 3, 5, 7

Q: downsweep部分的step complexity 和 work complexity？
And：downsweep是reduce部分的mirror，所以當然和reduce部分的complexity都一樣啦。

綜上，Blelloch方法的work complexity為O(n)，step 數為2⋅log(n).這裡我們可以看出相比於Hillis + Steele方法，Blelloch的總工作量更小。那麼問題來了，這兩種方法哪個更快呢？

ANS：這取決於所用的GPU，問題規模，以及實現時的優化方法。這一邊是一個不斷變化的問題：一開始我們有很多data（work > processor）, 更適合用work efficient parallel algorithm (e.g Blelloch), 隨著程式執行，工作量被減少了（processor > work），適合改用step efficient parallel algorithm，這樣而後資料又多起來啦，於是我們又適合用work efficient parallel algorithm…

總結一下，見下表為每種方法的complexity，以及適於解決的問題：

serial	Hillis + Steele	Blelloch
work	O(n)	O(nlogn)	O(n)
step	n	log(n)	2*log(n)
512個元素的vector 512個processor	√
一百萬的vector 512個processor	√
128k的vector 1個processor	√

4. Histogram

4.1. what is histogram?

顧名思義，統計直方圖就是將一個統計量在直方圖中顯示出來。

4.2. Histogram 的 Serial 實現：

分兩部分：1. 初始化，2. 統計

for(i = 0; i < bin.count; i++)
    res[i] = 0;
for(i = 0; i<nElements; i++)
    res[computeBin(i)] ++;

4.3. Histogram 的 Parallel 實現：

直接實現：

kernel:

__global__ void naive_histo(int* d_bins, const int* d_in, const in BIN_COUNT){
    int myID = threadIdx.x + blockDim.x * blockIdx.x;
    int myItem = d_in[myID];
    int myBin = myItem % BIN_COUNT;
    d_bins[myBin]++;
}

來想想這樣有什麼問題？又是我們上次說的read-modify-write問題，而serial implementation不會有這個問題，那麼想實現parallel histogram計算有什麼方法呢？

法1. accumulate using atomics
即，將最後一句變成
atomicAdd(&(d_bins[myBin]), 1);
但是對於atomics的方法而言，不管GPU多好，並行執行緒數都被限制到histogram個數N，也就是最多隻有N個執行緒並行。

法2. local memory + reduce
設定n個並行執行緒，每個執行緒都有自己的local histogram（一個長為bin數的vector）；即每個local histogram都被一個thread順序訪問，所以這樣沒有shared memory，即便沒有用atomics也不會出現read-modify-write問題。
然後，我們將這n個histogram進行合併（即加和），可以通過reduce實現。

相關推薦

CUDA系列學習（五）GPU基礎演算法: Reduce, Scan, Histogram

喵~不知不覺到了CUDA系列學習第五講，前幾講中我們主要介紹了基礎GPU中的軟硬體結構，記憶體管理，task型別等；這一講中我們將介紹3個基礎的GPU演算法：reduce，scan，histogram，它們在並行演算法中非常常用，我們在本文中分別就其功能用處，序

CUDA系列學習（三）GPU設計與結構QA & coding練習

啥？你把CUDA系列學習（一），（二）都看完了還不知道為什麼要用GPU提速？是啊。。經微博上的反饋我默默感覺到提出這樣問題的小夥伴不在少數，但是更多小夥伴應該是看了（一）就感覺離自己太遠所以趕緊撤粉跑掉了。。。都怪我沒有寫CUDA系列學習（零）。。。那麼，這一章就補上這一塊

pandas系列學習（五）：資料連線

作者：chen_h 微訊號 & QQ：862251340 微信公眾號：coderpai 利用 Python 處理任何實際的資料時，你就需要將 pandas DataFrame 合併或者連結在一起來分析資料集，但是這個過程還是非常花費時間的，

CUDA系列學習（二）CUDA memory variables

本文來介紹CUDA的memory和變數存放，分為以下章節：（一）、CPU Memory 結構（二）、GPU Memory結構（三）、CUDA Context（四）、kernel設計（五）、變數 & Memory 5.1 global arrays

TensorFlow系列專題（五）：BP演算法原理

一．反向傳播演算法簡介二．前饋計算的過程第一層隱藏層的計算第二層隱藏層的計算輸出層的計算三．反向傳播的計算計算偏導數四．參考文獻一．反向傳播演算法反向傳播演算法[1]（Backpropagation Algorit

資料探勘入門系列教程（五）之Apriori演算法Python實現

資料探勘入門系列教程（五）之Apriori演算法Python實現載入資料集獲得訓練集頻繁項的生成生成規則獲得support獲得confidence獲得Lift進行驗證總結參考資料探勘入門系列教程（五）之Apriori演算法Python實現在上一篇部落格中，我們介紹了Apriori演算法的演算法流

如鵬網學習筆記（五）MySql基礎

修改列記錄 tex 令行金額升序查詢自動遞增 col MySQL基礎一、數據庫概念　　1，網友裝備信息、論壇帖子信息、QQ好友關系信息、學籍管理系統中的學生信息等都要“持久化”的保存到一個地方，　　　　如果通過IO寫到文件中，那麽會非常麻煩，而且不利於多人共享數

GO語言學習（五）Go 語言基礎語法

序列單行 break ani 開頭 ntp false nil div Go 標記 Go 程序可以由多個標記組成，可以是關鍵字，標識符，常量，字符串，符號。如以下 GO 語句由 6 個標記組成： fmt.Println("Hello, World!")

linux菜鳥基礎學習（五）系統日誌

unix 18C 關閉系統 0.11 cron rate 保存日誌類系統日誌 1.系統日誌默認分類 /var/log/messages ##系統服務及日誌，包括服務的信息，報錯等等/var/log/secure ##系統認證信息日誌/var/log/mai

機器學習與深度學習系列連載：第一部分機器學習（五）生成概率模型（Generative Model）

生成概率模型（Generative Model） 1.概率分佈我們還是從分類問題說起：當我們把問題問題看做是一個迴歸問題，分類是class 1 的時候結果是1 分類為class 2的時候結果是-1；測試的時候，結果接近1的是class1

java_入門基礎學習（五）

這個帖子主要記錄程式碼語句使用方法判斷語句 1.if 、else、else if 判斷方法 //語法 if(條件){ 滿足條件後執行的程式碼邏輯 } if(條件){ 滿足條件後

pyCUDA教程-系列學習（1）：GPU結構、pyCUDA、numbapro安裝及HelloGPU例子

GPU結構CPU v.s. GPU CPU是被設計用來處理複雜任務的，而GPU只能做好一件事-處理百萬級的低階任務（原來是被用來生成3D圖形中的三角形），而且GPU有上千個ALU（算術邏輯單元），而CPU通常只有8個。而且很多程式大部分時間都花在GPU擅長的簡單運算上了，所

斯坦福機器學習：網易公開課系列筆記（五）——高斯判別分析、樸素貝葉斯

高斯判別分析(Gaussian discriminant analysis) 判別模型和生成模型前面我們介紹了Logistic迴歸，通過學習hΘ(x)來對資料的分類進行預測：給定一個特徵向量x→輸出分類y∈{0,1}。這類通過直接

機器學習系列：（五）決策樹——非線性迴歸與分類

和猜猜看一樣，決策樹也是通過對解釋變數序列的逐條測試獲取響應變數結果的。那麼，哪個解釋變數應該先測試？直覺觀察會發現，解釋變數集合包含所有貓或者所有狗的測試，比既包含貓又包含狗的解釋變數集合的測試要好。如果子整合員種類不同，我們還是不能確定種類。我們還需要避免建立那種測試，把單獨的一隻貓或一條狗分離出

HEVC學習（五） —— 幀內預測系列之三

今天主要介紹幀內預測一個很重要的函式initAdiPattern，它的主要功能有三個，（1）檢測當前PU的相鄰樣點包括左上、上、右上、左、左下鄰域樣點值的可用性，或者說檢查這些點是否存在；（2）參考樣點的替換過程，主要實現的是JCTVC-J1003即draft 8.4.4.

Docker基礎學習（五）-Dockerfile命令詳解（超全版本）

製作Dockerfile為Docker入門學習的第一步（當然，除了環境搭建）。本文收集、整理了官網關於製作Dockerfile的全部命令（除SHELL沒整理，這個就不弄了），可幫助大家快速進入Dockfile製作的學習。以下為正文，下面進入學習姿勢吧！

微控制器學習筆記（五）—— 硬體基礎知識積累

1.資料型別C語言中的資料由數字和字元構成，有以下三種資料型別：字元，整數，浮點數注：整數預設是十進位制資料，前面加0表示8進位制資料，前面加0x表示16進位制資料；2.變數2.1.變數型別變數用來儲存資料，本質是記憶體中的一段儲存空間，儲存空間大小由變數型別所決定，所以變數

MySQL 基礎知識梳理學習（五）----半同步復制

borde dump 反饋 tex 數據完整性註意 align span 復制 1.半同步復制的特征（1）從庫會在連接到主庫時告訴主庫，它是不是配置了半同步。（2）如果半同步復制在主庫端是開啟了的，並且至少有一個半同步復制的從節點，那麽此時主庫的事務線程在提交時會被阻

人工智慧實踐：TensorFlow筆記學習（五）—— 全連線網路基礎

MNIST資料集輸出手寫數字識別準確率大綱5.1 MNIST資料集5.2 模組化搭建神經網路5.3 手寫數字識別準確率輸出目標利用MNIST資料集鞏固模組化搭建神經網路的八股，實踐前向傳播和反向傳播過程，編寫測試程式輸出手寫數字識別準確率。5.1 MNIST資料集MNIST資

ArcGIS 空間資料庫學習（五）要素類基礎知識

X,y 容差建立要素類時，系統將要求您設定 x,y 容差。在拓撲驗證、緩衝區生成、面疊加等聚類操作以及一些編輯操作中，使用 x,y 容差來設定兩個座標之間的最小距離。用於在這些操作過程中確定所有要素座標（結點和折點）間最小距離的 x,y 容差，會影響要素處理操作。按照定義，x,y 容差還定義了座標在聚類操作