CPU與CUDA(GPU)的計算能力對比之一: Tensorflow矩陣乘

阿新 • • 發佈：2020-12-16

CPU與CUDA(GPU)的計算能力對比之一: Tensorflow矩陣乘

結論：
1.Tensorflow 矩陣乘場景，CUDA 的效率是 CPU 的 1000 倍以上。
2. 測試過程中： GPU峰值佔用率能夠達到100%, CPU峰值佔用率最高（觀測到的）為51% , 大部分時間在20%以下。
3. 本測試不涉及神經網路/深度學習/機器學習演算法，僅為簡單的矩陣乘（1億行元素 * 1 億列元素）

環境概要：
CPU 9750 i7 ,32G 記憶體；
GPU Nvidia RTX2070 (8G視訊記憶體)
Tensorflow 版本：2.3.1

CUDA 版本：10.1
cuDNN 版本：7.6.5

# 遮蔽tensorflow輸出的log資訊
# 注意：程式碼在import tensorflow之前
import os
os.environ["TF_CPP_MIN_LOG_LEVEL"] = "2"

import sys
print("python的版本資訊：",sys.version)
#python的版本資訊： 3.7.9 (default, Aug 31 2020, 17:10:11) [MSC v.1916 64 bit (AMD64)]

import tensorflow as 
 tf

'''
驗證GPU相對於CPU,在平行計算優勢明顯
'''
n=100000000 #1億次  （2億次 會發生記憶體分配OOM ）

python的版本資訊： 3.8.5 (default, Sep  3 2020, 21:29:08) [MSC v.1916 64 bit (AMD64)]

# 建立在CPU環境上運算的 2 個矩陣
with tf.device('/cpu:0'):
    cpu_a = tf.random.normal([1, n])
    cpu_b = tf.random.normal([n, 1])
    print(cpu_a.device, cpu_b.device)

/job:localhost/replica:0/task:0/device:CPU:0 /job:localhost/replica:0/task:0/device:CPU:0

cpu_b.device

'/job:localhost/replica:0/task:0/device:CPU:0'

cpu_a.device

'/job:localhost/replica:0/task:0/device:CPU:0'

# 建立使用 GPU環境運算的 2 個矩陣
with tf.device('/gpu:0'):
    gpu_a = tf.random.normal([1, n])
    gpu_b = tf.random.normal([n, 1])
    print(gpu_a.device, gpu_b.device)

/job:localhost/replica:0/task:0/device:GPU:0 /job:localhost/replica:0/task:0/device:GPU:0

import timeit
def cpu_run(): # CPU 運算函式
    with tf.device('/cpu:0'):
        c = tf.matmul(cpu_a, cpu_b)
    return c
def gpu_run():# GPU 運算函式
    with tf.device('/gpu:0'):
        c = tf.matmul(gpu_a, gpu_b)
    return c

# 第一次計算需要熱身，避免將初始化時間結算在內
cpu_time = timeit.timeit(cpu_run, number=10)
gpu_time = timeit.timeit(gpu_run, number=10)
print('首先計算10次（含熱身環境）的平均時間,CPU計算消耗時間：%.3fms,GPU計算消耗時間：%.3fms!'%(cpu_time*1000, gpu_time*1000) )

首先計算10次（含熱身環境）的平均時間,CPU計算消耗時間：732.556ms,GPU計算消耗時間：0.676ms!

#正式計算10次，取平均時間
cpu1_time = timeit.timeit(cpu_run, number=200)

gpu1_time = timeit.timeit(gpu_run, number=200)

print('正式計算200次的平均時間,CPU計算消耗時間：%.3fms,GPU計算消耗時間：%.3fms!'%(cpu1_time*1000, gpu1_time*1000))

正式計算200次的平均時間,CPU計算消耗時間：14245.693ms,GPU計算消耗時間：12.130ms!

CPU與CUDA(GPU)的計算能力對比之一: Tensorflow矩陣乘

技術標籤：tensorflow人工智慧python CPU與CUDA(GPU)的計算能力對比之一: Tensorflow矩陣乘

Opecv Cuda GPU 影象處理（計算結果與CPU不一樣）

技術標籤：Basler Cameraopencv Opecv Cuda GPU 影象處理（計算結果與CPU不一樣）上程式碼

使用Tensorflow-GPU禁用GPU設定(CPU與GPU速度對比)

禁用GPU設定 # 在import tensorflow之前 import os os.environ[\'CUDA_VISIBLE_DEVICES\'] = \'-1\' CPU與GPU對比

tensorflow指定CPU與GPU運算的方法實現

1.指定GPU運算如果安裝的是GPU版本，在執行的過程中TensorFlow能夠自動檢測。如果檢測到GPU，TensorFlow會盡可能的利用找到的第一個GPU來執行操作。

win10與Ubuntu16.04雙系統安裝、配置Ubuntu16.04 Anaconda3環境、配置cuda與cudnn、配置TensorFlow-gpu 與 pytorch-gpu、ssh內網穿透

目錄一、目的二、安裝版本介紹三、安裝過程 3.1、安裝 win10 與 Ubuntu 16.04 雙系統

CPU 與 GPU、VCU 的關係愈加“微妙”

一個 GPU 總需要一個 CPU，但 CPU 的選擇已經不再單一，GPU 的功能也不再“簡單”，曾經穩固的關係，不再是單純的合作。

深入理解 CPU 和異構計算晶片 GPU/F10PGA/ASIC

https://cloud.tencent.com/developer/article/1004747 https://cloud.tencent.com/developer/article/1004746

魈寶的培養及傷害計算（攻擊杯與風傷杯傷害對比）

模擬物件:90級魈（零命）性別:男年齡:*千歲身高:15*CM 武器:90級和璞鳶（一精）

pytorch 指定gpu訓練與多gpu並行訓練示例

一. 指定一個gpu訓練的兩種方法： 1.程式碼中指定 import torch torch.cuda.set_device(id)

基於Tensorflow使用CPU而不用GPU問題的解決

之前的文章講過用Tensorflow的object detection api訓練MobileNetV2-SSDLite，然後發現訓練的時候沒有利用到GPU，反而CPU佔用率賊高（可能會有Could not dlopen library \'libcudart.so.10.0\'之類的警告）。經調查應

Kotlin與java8的SAM轉換對比(進階)

什麼是sam 轉換 Single Abstract Method 實際上這是java8中提出的概念，你就把他理解為是一個方法的介面的就可以了

Django bulk_create()、update()與資料庫事務的效率對比分析

下面以建立10000個物件為例進行測試： # 用for迴圈挨個建立，共花費37秒 for i in range(10000):

JAVA及PYTHON質數計算程式碼對比解析

Java 實現 class PrimeNumber{ public static void main(String[] args) { long start=System.currentTimeMillis();

C#獲取CPU與網路卡硬碟序列號及Base64和DES加密解密操作類

public class RegisterHelp { /// <summary> /// CPU /// </summary> /// <returns></returns>

CPU與快取記憶體

目錄CPU時鐘週期暫存器快取記憶體作用原理資料結構歷史概念的擴充套件 CPU CPU負責執行指令，是所有計算機硬體中速度最快的。一般用時鐘週期（時鐘頻率）來衡量CPU的效能。

詳解Tensorflow不同版本要求與CUDA及CUDNN版本對應關係

參考官網地址： Windows端：https://tensorflow.google.cn/install/source_windows CPU Version Python version

有關vue中的計算屬性與方法、計算屬性與監聽屬性的區別

一、計算屬性與方法首先兩者返回的結果一樣，但是 1、計算屬性他是依賴於響應式快取的，也就是說當響應式資訊沒有改變時，它會利用原先的快取進行顯示，而不用不停的去呼叫方法

ASP.NET Core 程序內與程序外的效能對比

ASP.NET Core 程序內與程序外的效能對比本文內容是《深入去淺出ASP.NET Core》提供的擴充套件內容，畢竟在書裡說程序內外的效能說明對比，對於初學者而言，稍微複雜了點。

Docker 系列（八）：限制容器CPU與記憶體

限制容器記憶體壓力測試工具 stress 為了測試容器的記憶體使用情況，筆者在 ubuntu 的映象中安裝了壓力測試工作 stress，並新建立了映象 u-stress。本文演示用的所有容器都會通過 u-stress 映象建立(本文執行容器的

鴻蒙OS與安卓、Fuchsia 對比分析

本文基礎資料來源：https://blog.csdn.net/gxc19971128/article/details/104953294，進行了部分修改完善。

CPU與CUDA(GPU)的計算能力對比之一: Tensorflow矩陣乘

CPU與CUDA(GPU)的計算能力對比之一: Tensorflow矩陣乘

相關推薦