CUDA硬體架構知識

阿新 • • 發佈：2018-11-15

本博文是根據中科大資訊學院譚立湘老師的課件加上自己的理解整理出來的

************************************************************************************

1.NVIDIA的GPU顯示卡歷程：

Tesla->Fermi->Kepler->Maxwell->Pascal->Volta->Turing(2018)

2.體系結構相關術語：

SP（Streaming Processor）:流處理器是GPU運算的最基本計算單元=core。
SFU（Special Function Unit）:特殊函式單元用來執行超越函式指令，比如正弦、餘弦、平方根等函式。
Shadercore（渲染核/著色器），SP的另一個名稱，又稱為CUDA core，始於Fermi架構
DP （雙精度浮點運算單元）
SM（Streaming Multiprocessors）:流式多處理器是GPU架構中的基本計算單元，也是GPU效能的源泉，由SP、DP、SFU等運算單元組成。這是一個典型的陣列機，其執行方式為SIMT（單指令多執行緒），區別於傳統的SIMD（單指令流多資料流），能夠保證多執行緒的同時執行。

Tesla的SM:

由8個SP、2個SF和一個執行雙精度運算的DP組成，同時還包含了暫存器、共享儲存、常量儲存等單元。

SMX: Kepler架構中的SM
SMM: Maxwell架構中的SM

無論是SMM還是SMX還是SM都是一回事

TPC（Thread Processing Cluster）執行緒處理器簇：由SM和L1 Cache組成，存在於Tesla架構中。
TPC（Texture Processing Cluster）紋理處理器簇：出現在Pascal架構中。

Tesla架構的TPC：

2~3個SM配合L1 Cache構成TPC，Tesla架構主要核心型號有G80和GT200 每個TPC均由一個SM控制器進行統一控制。

GPC（Graph Processing Cluster）圖形處理器簇：類似於TPC，是介於整個GPU和SM間的硬體單元，始於Fermi構架。
SPA（Scalable streaming Processor Array）可擴充套件的流處理器陣列：所有處理核心和快取記憶體的總和，包含所有的SM、TPC、GPC。與儲存器系統共同組成GPU構架。
MMC（MeMoryController）儲存控制器：控制儲存訪問的單元，合併訪存。每個儲存控制器可以支援一定位寬的資料合併訪存。
ROP（raster operation processors）光柵操作單元
LD/ST（Load/Store Unit）儲存單元

3.雙warp排程機制
在每個SM前端都有兩個執行緒束排程器（Warp Scheduler）和兩個指令分發單元（Instruction Dispatch Unit），並且和SM 其它部分完全獨立，指令分發單元和執行硬體之間有一個完整的交叉開關，每個單元都可以向SM內的任何單元分配執行緒。
SM 是以warp為單位排程執行緒的，每一個SM 的兩個warp排程單元和兩個指令分發單元，允許同時啟動和執行兩個warp。
Fermi雙warp 排程機制可以同時啟動兩個warp，並且將每個warp的一條指令分發到一組16個CUDA Core上、16 個存取單元中或者是4 個SFU上執行。因為warp 彼此單獨執行，所以Fermi的排程單元不需要檢查指令流之間的相關性。

Warp（執行緒束）：32執行緒。SM內以warp為單位並行執行
–Warp內的執行緒執行同一條指令
（步調一致）
–Half-warp是儲存操作的基本單位
***************************************************************************************************************
CUDA中grid、block、thread、warp與SM、SP的關係<-可以看這裡

每一代架構內容太多了，如果有需要具體架構內容，可以留言

CUDA硬體架構知識

本博文是根據中科大資訊學院譚立湘老師的課件加上自己的理解整理出來的 ************************************************************************************ 1.NVIDIA的GPU顯示卡歷程： Tesla-

【平行計算-CUDA開發】CUDA軟體架構與Nvidia硬體對應關係

硬體基本架構實際上在nVidia的GPU裡，最基本的處理單元是所謂的SP(Streaming Processor)，而一顆nVidia的GPU裡，會有非常多的SP可以同時做計算；而數個SP會在附加一些其他單元，一起組成一個SM(Streaming Multiprocessor)。幾個SM則會在組成所

CUDA GPU架構-硬體和軟體

掌握部分硬體知識，有助於程式設計師編寫更好的CUDA程式，提升CUDA程式效能，本文目的是理清sp，sm，thread，block，grid，warp之間的關係。由於作者能力有限，難免有疏漏，懇請讀者批評指正。　　首先我們要明確：SP（streaming

了解Linux運維要用到的web集群架構知識

Linux運維 Linux入門 Linux基礎 Linux學習系統運維了解Linux運維要用到的web集群架構知識在充斥著各種的互聯網+的數字時代，IT運維方面也越來越趨於Linux系統的應用，掌握 Linux 運維技術已成為IT 技術人員的必經之路，但是，構建在Linux系統上的高性

Linux運維需要懂什麽web集群架構知識？

Linux運維 Linux學習 Linux入門 Linux基礎系統運維 Linux運維需要懂什麽web集群架構知識？在充斥著各種的互聯網+的數字時代，IT運維方面也越來越趨於Linux系統的應用，掌握 Linux 運維技術已成為IT 技術人員的必經之路，但是，構建在Linux系統上的高性

OpenStack架構知識梳理

openstack 架構知識梳理 OpenStack既是一個社區，也是一個項目和一個開源軟件，提供開放源碼軟件，建立公共和私有雲，它提供了一個部署雲的操作平臺或工具集。包括OpenStack計算（代號為Nova），OpenStack對象存儲（代號為Swift），並OpenStack鏡像服務（代號

Hadoop的架構知識

行集變化並行處理從服務器應用程序多個分布式存其中後臺程序最近沒事研究了下Hadoop，先來了解下Hadoop的架構知識 Hadoop是一個能夠對大量數據進行分布式處理的軟件框架，實現了Google的MapReduce編程模型和框架，能夠把應用程序分割成許

Angular 2架構知識概解

1，模組（module）:可執行單個任務的程式碼塊，用export指明其為一個模型，定義為public，可為整個應用程式引用 2，元件，元件是具有模板的控制器類，主要處理頁面上的應用程式和邏輯的檢視。它是一個可以在整個應用程式中使用的程式碼。註冊時使用 @Component

CUDA軟體系統知識

本博文是根據中科大資訊學院譚立湘老師的課件加上自己的理解整理出來的 ************************************************************************************ NVIDIA在2007年推出CUDA這個統一計算架構

[轉]分散式系統架構知識體系

註明：原文由【薛定諤貓】發表於其個人微信公眾號【架構師是怎樣煉成的】中。雙十一終於過去了,趁雙十二的需求還沒下來前,晚上稍微有點時間搞點自己的事情了,距離上篇微信公眾號文章已經過去快三個月了,今天決定寫一篇關於分散式知識體系的文章,分散式架構整個知識體系紛繁複雜,不加以總結很難形成知

計算機硬體相關知識

計算機簡史：第一代電子管計算機(1946~1958)：特點：操作指令是為特定任務而編制的，每種機器有各自不同的機器語言，功能受到限制，速度也慢。另一個明顯特徵是使用真空電子管和磁鼓儲存資料。第二代電晶體計算機 (1956-1963)：特點：電晶體代替了體積龐大電子管，使用磁芯儲存器。體積小、速度快

Java web架構知識整理——我在阿里的一次面試經歷

慚愧，從一次電面說起。我個人在某國企做一名軟體設計師，國企大家都懂的，待遇一般而且沒啥意思，做的方向基本都是作業系統、驅動和工具軟體的開發，語言基本都是C/C++。最近也想跳槽，剛好有幸得到了一次阿里的面試機會，於是就試了試。首先是電話面試，當時正在上班，人多口雜，好不容易找了個沒人的地方開始

linux硬體基礎知識

說實話很多人都在學習Linux運維的知識,就目前行業來說Linux是很流行的東西,當下培訓機構也很多,接下來了解下計算機硬體的知識! 下面開始了: 1U伺服器:U是一個單位,1U = 4.45cm。電腦主機的組成:常見的做運維關注的只有:CPU ,DISK,記憶體一、電源:伺服

嵌入式基礎（2）---硬體基礎知識

嵌入式系統是一種專用的計算機系統，作為裝置或裝置的一部分。國內普遍認同的嵌入式系統定義為：以應用為中心，以計算機技術為基礎，軟硬體可裁剪，適應應用系統對功能、可靠性、成本、體積、功耗等嚴格要求的專用計算機系統。舉些例子，手機、電子時鐘、智慧報警裝置、自動監控器、計程車計費器

前端架構知識圖譜

對前端一直是個半吊子，一直覺得主要興趣在後臺開發。但是目前全棧化趨勢越來越烈了，前臺後端的分工界線越來越模糊。日常工作中接到的任務有很大的佔比都是前端的開發，這也是應用開發（非底層，非中介軟體）不得不面對的一個現狀。既然如此，那就硬著頭皮上吧！其實，所有的東西都經不得深研，一研究入得法

架構：架構知識大雜燴

文章目錄 F K M R Z F 搞懂“分散式鎖”，看這篇文章就對了 https://mp.weixin.qq.com/s/hoZB0wdwXfG3ECKlzjtPdw 什麼是 TCC分散式事務？ https:

硬體基礎知識（9）---電容容量、尺寸及作用

電容的作用電容的計算公式：C=εS/4πkd，實話說，我也記不得這是幹什麼的了>_<||| ，自從高考完，再也沒用過，早就還給老師了。在工作的十幾年中，壓根用不到這些最理論化的計算。那麼電容在硬體設計中應當怎麼用呢？前面講到了電容的基本特性就是儲能，一個水杯，不斷的充水放水、充電放電。電容的一切應

Android專案架構--知識體系簡單梳理(一)

Android專案結構按模組module來劃分 lib_base：包含各種Base基類，如 BaseActivty、BaseFragment、BaseApplication，這是一些專案的開始基礎。

資料分析的資料架構知識詳解（二）

我們在前面的文章中提到了BI系統，從文章中我們不難發現BI系統處理資料的時候都是很有效的，但是當資料量過大的時候，我們系統的效能就會弱了很多。當然了，如果我們處理的資料在TB或者TB以上的資料量的時候，這個系統根本就不能夠正常執行，所以，我們就需要解決這個問題。大家都知道資料庫的規則是有很多的，資料庫

資料分析的資料架構知識詳解（三）

資料分析的架構是有很多的，比如傳統的大資料架構、流式架構、lambda架構、Kappa架構、Unifield架構。但是大家對於這些架構都不是很熟悉的，並且各個資料分析的架構都是有很多優點和缺點的，下面就由小編為大家解答一下這個問題。首先說說傳統大資料架構。我們叫傳統大資料架構，是因為其定位是為了解決傳

CUDA硬體架構知識

本博文是根據中科大資訊學院譚立湘老師的課件加上自己的理解整理出來的

************************************************************************************

1.NVIDIA的GPU顯示卡歷程：

Tesla->Fermi->Kepler->Maxwell->Pascal->Volta->Turing(2018)

2.體系結構相關術語：

SP（Streaming Processor）:流處理器是GPU運算的最基本計算單元=core。

SFU（Special Function Unit）:特殊函式單元用來執行超越函式指令，比如正弦、餘弦、平方根等函式。

Shadercore（渲染核/著色器），SP的另一個名稱，又稱為CUDA core，始於Fermi架構

DP （雙精度浮點運算單元）

SMX: Kepler架構中的SM

SMM: Maxwell架構中的SM

TPC（Thread Processing Cluster）執行緒處理器簇：由SM和L1 Cache組成，存在於Tesla架構中。

TPC（Texture Processing Cluster）紋理處理器簇：出現在Pascal架構中。

GPC（Graph Processing Cluster）圖形處理器簇：類似於TPC，是介於整個GPU和SM間的硬體單元，始於Fermi構架。

SPA（Scalable streaming Processor Array）可擴充套件的流處理器陣列：所有處理核心和快取記憶體的總和，包含所有的SM、TPC、GPC。與儲存器系統共同組成GPU構架。

MMC（MeMoryController）儲存控制器：控制儲存訪問的單元，合併訪存。每個儲存控制器可以支援一定位寬的資料合併訪存。

ROP（raster operation processors）光柵操作單元

LD/ST（Load/Store Unit）儲存單元

Warp（執行緒束）：32執行緒 。SM內以warp為單位並行執行

–Warp內的執行緒執行同一條指令

（步調一致）

–Half-warp是儲存操作的基本單位

CUDA中grid、block、thread、warp與SM、SP的關係<-可以看這裡

相關推薦

Warp（執行緒束）：32執行緒。SM內以warp為單位並行執行