滴滴雲A100 40G 效能測試 V100陪練！

阿新 • • 發佈：2020-09-17

眼看遊戲卡RTX3080 發售在即，我終於等到了滴滴雲（感謝）A100的測試機會。因為新卡比較緊張，一直在排隊中，直到昨天才拿了半張A100...今天終於上手了單張40G的A100，小激動，小激動，小激動！！！基於安培架構的最新一代卡皇（NVIDIA GPU A100 Ampere）可以搞起來了。

Part 1：系統環境

A100正處於記憶體階段，官網上還看不到。內測通過ssh連線，ssh連上去之後大概看了下系統環境。

作業系統，CPU，RAM資料如上。重點關注GPU：A100-SXM4-40GB（上次摸DGX A100的時候，沒有把測試跑起來，好悔）

CUDA11，CudNN，TensorFlow1.5.2 等配套環境滴滴雲都已經部署好了，可以省去好多時間！

這裡需要注意，新版顯示卡必須要用CUDA11，而且得用NV自己編譯的TensorFlow1.5.2。

然後，網上撈一段Python程式碼：

from tensorflow.python.client 
import device_lib print(device_lib.list_local_devices())

輸出：

Created TensorFlow device (/device:GPU:0 with 36672 MB memory) -> physical GPU (device: 0, name: A100-SXM4-40GB, pci bus id: 0000:cb:00.0, compute capability: 8.0)
[name: "/device:CPU:0"
device_type: "CPU"
memory_limit: 268435456
locality {
}
incarnation: 3653225364972814250
, name: "/device:XLA_CPU:0"
device_type: "XLA_CPU"
memory_limit: 17179869184
locality {
}
incarnation: 7582640257522961335
physical_device_desc: "device: XLA_CPU device"
, name: "/device:XLA_GPU:0"
device_type: "XLA_GPU"
memory_limit: 17179869184
locality {
}
incarnation: 5159602092499780099
physical_device_desc: "device: XLA_GPU device"
, name: "/device:GPU:0"
device_type: "GPU"
memory_limit: 38453856175
locality {
  bus_id: 6
  numa_node: 5
  links {
  }
}
incarnation: 3682405687960901280
physical_device_desc: "device: 0, name: A100-SXM4-40GB, pci bus id: 0000:cb:00.0, compute capability: 8.0"
]

可以看到有XLA_GPU和GPU，物理裝置型號為A100-SXM4-40GB，算力8.0，呼叫應該沒問題！

Part 2：掂量掂量

卡到手了，肯定是要測一測！

既然是測試，肯定需要有陪跑選手滴。這裡用到的裝置為谷歌Colab的V100 16G，矩池雲的2080TI 11G（為啥要拉上我這個價效比之王 ╰(艹皿艹 ) ，曾經的我隨風飛揚，現在的我感覺天台的風好涼）。

裝置有了，怎麼測試才科學呢？用娛樂大師麼? 不行滴，不行滴，不行滴！

首先，作業系統都是 Ubuntu18.04，跑不了Window上的軟體。

其次，這裡主要是比較深度學習能力，不比吃雞能力。

深度學習卡能幹什麼？煉丹咯！

剛好看到（蓄謀已久）TensorFlow官方有提供Benchmarks，可以測試一些常見模型，那我就現學現賣用這個來做個“業餘”測試吧，本文提供資料僅供參考，如有謬誤，不要找我！

專案地址：

https://github.com/tensorflow/benchmarks

執行前需要先安裝好CUDA，Cudnn，和TensorFlow，基本沒什麼多餘的依賴。

三行命令就可以跑起來了

git clone https://github.com/tensorflow/benchmarks.git
cd benchmarks/scripts/tf_cnn_benchmarks
python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=32 --model=resnet50

如果要測試特定的版本：

git checkout cnn_tf_v1.15_compatible

這裡注意區分1.15和1.5版本，別搞錯哦！

Part 3：測試結果

懷著無比激動的心情，重複著無比枯燥的複製黏貼，終於把表格做出了。每次跑會有一些微小的差別，但是整體偏差不會太高。

Model /GPU	A100	V100	2080ti
ResNet50	645.26	386.06	303.65
AlexNet	8282.46	4808.18	3905.13
Inception v3	440.01	254.19	198.97
VGG16	442.20	250.19	178.02
GoogLeNet	1556.06	1029.42	777.65
ResNet152	228.29	138.39	115.28

A100 VS V100 VS 2080ti

這張表格使用Benchmarks的預設引數對比了A100，V100, 2080ti的效能。橫向為GPU，列為模型名稱，中間的為吞吐量images/sec，數字越大就證明越強。從結果來看，A100 Vs V100，基本保持在1.5倍上，比較好的能達到1.7倍左右。

上面為預設引數，下面使用--use_fp16比較一下A100和V100的差距。

Model /GPU	A100	V100
ResNet50	1315.11	914.24
AlexNet	10587.67	8810.04
Inception v3	946.03	579.62
VGG16	687.07	428.17
GoogLeNet	2680.27	1878.02
ResNet152	395.34	293.98

A100 Vs V100 FP16

因為之前跑了20G的A100，所以也來比較一下通過MIG分割後的卡和單卡之間的差別。

MIG是multi-instance-gpu的縮寫，多例項 GPU (MIG) 可提升每個 NVIDIA A100 Tensor 核心 GPU 的效能和價值。MIG 可將 A100 GPU 劃分為多達七個例項，每個例項均與各自的高頻寬視訊記憶體、快取和計算核心完全隔離。

模型/顯示卡	A100 40G(單張)	A100 20G（半張）
ResNet50	645.26	309.91
AlexNet	8282.46	3694.83
Inception v3	440.01	226.36
VGG16	442.20	187.99
GoogLeNet	1556.06	748.62
ResNet152	228.29	119.79

A100 40G VS MIG 20G

從結果來看，40G和20Gx2有輸有贏。也就是說MIG切完後效能並沒有掉很多。

因為我手上顯示卡資源匱乏，沒有其他裝置，所以網上找了一張表格，可以通過V100作為參考系，對比一下其他裝置和A100的差距。

再貼兩張官方的效能對比圖

從官方的圖來看，8張A100最好的情況下能達到8張V100的6倍多。其中跑ResNet-50 V1.5的時候大概能達到兩倍，剛好TensorFlow Benchmarks提供了這個模型。那我就順手測一測，如果有不一致，肯定是我的開啟方式不對，老黃請不要拿RTX3090顯示卡砸我，我會空手接...！

Model /GPU	A100	V100
ResNet-50 V1.5	606.23	349.78
ResNet-50 V1.5 FP16	1341.26	851.87

拿出計算器滴滴滴：

606.23 / 349.78 = 1.7331751386585853965349648350392
1341.26 / 859.04 = 1.5744890652329580804582858886919

老黃誠不我欺，四捨五入一下真的是兩倍哎！

當然，嚴格來說，我們的測試環境還是存在不小的差異。NV官方是8卡對決（家裡沒礦，但是卡多啊），能保證測試過程中其他變數保持一致。我這是隨手取了兩個平臺的單卡。

Part 4：簡單總結

《效能提升20倍：英偉達GPU旗艦A100登場》這樣的媒體報道，就只能當故事匯了。正常的大廠都不可能這麼升級，老黃的刀法也不允許這種事情發生，一年一刀，一刀一倍不香麼。從實際情況來看，A100單手懟2080ti（2倍+）, 雙腳踩V100（1.5倍+）是沒有問題滴。

滴滴雲對於A100的跟進速度相當之快，很早就開始籌備，現在已經開放測試申請了，如果有需要的可以去申請測試。

要用GPU的可以去他們官網看看，價效比很高（大師碼：8888）。

===================================================

原地址：https://www.tonyisstark.com/383.html

滴滴雲A100 40G 效能測試 V100陪練！

Part 1：系統環境

Part 2：掂量掂量

Part 3：測試結果

Part 4：簡單總結

滴滴雲A100 40G 效能測試 V100陪練！

雲網絡效能測試流程

效能測試乾貨丨這！篇！都！是！知！識！點！

原來效能測試要這樣做！年薪百萬測試架構師的忠告

原來效能測試要這樣做！年薪百萬測試架構師的忠告1

設計效能測試用例——對基於雲的系統的一次測試經歷

阿里雲效能測試服務 PTS 新面貌 - 壓測協議、施壓能力全新升級

在spring boot中使用jmh進行效能測試

Spark效能測試WordCount負載-HiBench-執行報錯

使用 JMeter 進行 Dubbo 效能測試

應用效能測試神器 Gatling，你用過嗎？

記一次基於Docker的效能測試

Android效能測試關注的指標整理

通過sysbench工具實現MySQL資料庫的效能測試的方法

資料庫效能測試之sysbench工具的安裝與用法詳解

Python內建資料型別list各方法的效能測試過程解析

通過python呼叫adb命令對App進行效能測試方式

基於python locust庫實現效能測試

Windows作業系統TIME_WAIT狀態的TCP連線快速回收時間（效能測試時埠不夠用）

JVM的堆記憶體洩漏排查-效能測試

滴滴雲A100 40G 效能測試 V100陪練！

Part 1：系統環境

Part 2：掂量掂量

Part 3：測試結果

Part 4：簡單總結

相關推薦