1. 程式人生 > >60 cuda全局性能優化

60 cuda全局性能優化

內存 有意義 訪問限制 gui 應該 線程模型 program 測量 並行執行

0 引言

cuda線程模型涉及grid的塊劃分和線程配置,直接影響到全局運算速度。根據文檔《CUDA_C_Programming_Guide》,性能優化有三個方面的基本策略。

(1)最大化並行執行以實現最大的利用率.

(2)優化內存使用,以實現最大的內存吞吐量.

(3)優化指令使用,以實現最大的指令吞吐量.

對於應用程序的特定部分,哪些策略將產生最佳性能收益取決於該部分的性能受哪方面的限制;例如,優化主要受內存訪問限制的內核的指令使用不會產生任何顯著的性能提升。因此,應該不斷地通過測量和監視性能限制器(例如使用CUDA profiler)來指導優化工作。此外,將特定內核的浮點操作吞吐量或內存吞吐量(無論哪個更有意義)與設備的相應峰值理論吞吐量進行比較,可以看出內核有多大的改進空間。

1

60 cuda全局性能優化