2018電磁模擬(HFSS、CST、FEKO)單機叢集平行計算特點分析與完美解決方案
2018電磁模擬(HFSS、CST、FEKO)單機叢集平行計算特點分析與完美硬體解決方案
一.電磁模擬計算特點與硬體配置分析
電磁場模擬軟體廣泛應用於無線和有線通訊、計算機、衛星、雷達、半導體和微波積體電路、航空航天等領域,從毫米波電路、射頻電路封裝設計驗證,到混合積體電路、PCB板、無源板級器件、RFIC/MMIC設計,天線設計,微波腔體、衰減器、微波轉接頭、波導錄波器等設計等。1.1 電磁模擬演算法分類、計算特點
計算電磁學(CEM)方法大致可分為2類:精確演算法和高頻近似方法。(1)全波精確計演算法
包括差分法(FDTD,FDFD)、有限元(FEM)、矩量法(MoM)以及基於矩量法的快速演算法(如快速多極子(2)高頻近似方法
一般可歸作2類:一類基於射線光學,包括幾何光學(GO)、幾何繞射理論(GTD)以及在GTD 基礎上發展起來的一致性繞射理論(UTD)等;另一類基於波前光學,包括物理光學(PO)、物理繞射理論(PTD)、等效電磁流方法(MEC)以及增量長度繞射係數法(ILDC)等。演算法計算特點彙總如下
NO | 關鍵項 | 時域演算法 | 頻域演算法 | ||
1 | 主要演算法 | 時域有限差分 FDTD | 時域有限積分 FIT | 有限元 FEM | 矩量法 MOM |
2 | 典型軟體 | EMPIRE XPU XFDTD EMPro | CST | HFSS EMPro JMAG FLU | FEKO Momentum Sonnet |
3 | 計算特點 | 線性加速比高、高度多執行緒, 支援多核CPU 支援大型GPU 記憶體要求不高 回寫很少 | 多執行緒,線性加速有限 支援多核CPU並行求解 記憶體要求高 回寫有 |
1.時域演算法,屬於顯式演算法,傳統的CPU多核加速比好,核數越多計算越快,此外,並行度高,支援GPU加速計算,注意大部分求解器對GPU要求是雙精度計算為主,也就是說需要用雙精度效能高的GPU卡。
2 頻域演算法,屬於隱式演算法,支援多核平行計算,但核數平行計算有限,不支援
1.2 對平行計算求解過程分析
如何配置CPU要根據求解過程和演算法特點,尤其要了解時域、頻域兩大演算法特點緊密結合,這樣才能更高效更合理,從並行求解流程圖看,迴圈計算過程是單核和多核交叉過程。上圖可以看出,CPU選型非常重要,CPU睿頻足夠高,大幅縮短【階段1】求解時間,和整機足夠核數+高頻執行,大幅縮短【階段2】的求解器解算時間。
常規工作站賣家,提供的機器往往多核忽視了睿頻的重要性,整個計算過程效率非常低。
因此硬體配置注意:
1.如果是時域演算法為主,例如 FDTD、FIT求解器,由於並行度高,工作站配置儘量多核,可顯著提升求解速度,同時注意階段1睿頻高的處理器更快,如果是以GPU計算為主,可以配置CPU頻率高,核數少的,這樣整個過程顯著提升
2.如果是隱式演算法為主,例如 FEM,MOM求解器,由於並行度有限,一定要睿頻儘可能高,同時保證足夠的核數的並行,這樣整個求解過程無死角瓶頸3.如果是多種演算法並用,CPU要足夠核數與高睿頻之間選擇一個兼顧的規格,三種應用(時域演算法、頻域演算法、混合演算法)都均能確保工作站硬體計算效能最大化
考慮到上述計算特點,CPU的選擇對整個求解過程極其重要,下面是最新上市的intel Xeon Schalable(可擴充套件)處理器多種規格,UltraLAB選型分析:
1.3CEM求解規模與硬體配置推薦
a)基於時域演算法~UltraLAB硬體配置參考(CPU類)
NO | 分類 | 規模劃分 | 核數 | 全核頻率 | 睿頻 | 記憶體 | 並行儲存 |
1 | 小規模 | <50倍波長 | 14核 | 4.6GHz | 4.6GHz | 32GB | |
18核 | 4.5GHz | 4.5GHz | 64GB | ||||
2 | 中等規模 | 50~100倍波長 | 36核 | 3.1GHz | 3.7GHz | 64GB | |
40核 | 3.1GHz | 3.7GHz | 96GB | ||||
3 | 大規模 | 100~200倍波長 | 48核 | 3.5GHz | 3.7GHz | 96GB | |
56核 | 3.3GHz | 3.8GHz | 192GB | 13*4TB | |||
4 | 超大規模 | >200倍波長 | 96核 | 2.8GHz | 3.3GHz | 512GB | 13*4TB |
b)基於頻域演算法~UltraLAB硬體配置參考
NO | 分類 | 規模劃分 | 核數 | 全核頻率 | 睿頻 | 記憶體 | 並行儲存 |
1 | 小規模 | <20萬網格(</100萬未知量) | 14核 | 4.6GHz | 4.6GHz | 64GB | |
20萬~80萬網格(100~400萬未知量) | 18核 | 4.5GHz | 4.5GHz | 96GB | |||
2 | 中等規模 | 80萬~200萬網格(400萬~1000萬未知量) | 24核 | 4GHz | 4.2GHz | 96GB | |
200萬~500萬網格 | 36核 | 3.7GHz | 3.7GHz | 192GB | 8*4TB | ||
(1000萬~2500萬未知量) | |||||||
3 | 大規模 | 500萬~1000萬網格(2500萬~5000萬未知量) | 48核 | 3.5GHz | 3.7GHz | 256GB | 10*4TB |
4 | 超大規模 | 1000萬~2000萬網格 (5000萬~1億未知量) | 56核 | 3.3GHz | 3.8GHz | 384GB | 13*4TB |
5 | 超大規模 | >2000萬網格(>1億個未知量) | 叢集18*6 =108 | 4.4GHz | 4.4GHz | 64GB | 並行儲存 |
c)基於超大規模時域演算法求解GPU選型
如果以GPU求解為為主,可選的GPU卡參考下表
No | 型號 | 視訊記憶體(MB) | CUDA核 | 視訊記憶體頻寬(GBs) | 浮點計算指標TFlops -單精度 | 浮點計算指標TFlops -雙精度 | 散熱 |
1 | Tesla V100 | 16GB HBM2 | 5120 | 900 | 14.90 | 7.45 | 伺服器 |
2 | Tesla P100 | 16GB HBM2 | 3584 | 721 | 9.52 | 4.76 | 伺服器 |
3 | Tesla P100 | 12GB HBM2 | 3584 | 721 | 9.52 | 4.73 | 伺服器 |
4 | Quadro GV100 | 32GB | 5120 | 870 | 14.85 | 7.42 | 主動式 |
5 | Quadro GP100 | 16GB HBM2 | 3584 | 717 | 10.25 | 5.13 | 主動式 |
6 | Quadro K6000 | 12GB | 2880 | 288 | 5.18 | 1.73 | 主動式 |
7 | Quadro K5200 | 8GB | 2304 | 192 | 3.07 | 1.03 | 主動式 |
二.基於電磁模擬計算的UltraLAB機型介紹
UltraLAB是西安坤隆計算機科技有限公司推出的定製圖形工作站品牌,經過多年發展,該產品擁有傲視群雄的三大領先優勢:先進計算硬體架構、完整齊全行業應用定製方案、專業硬體系統優化技術,大幅超越同類的“圖形工作站”產品,我們提供基於電磁模擬計算應用最快硬體架構產品系列。2.1 極速圖形工作站H490介紹
配置特點:(1)CPU具有超高的頻率,中小規模時域與頻域求解,發揮極致效能 6核5.0GHz,8~10核4.8GHz,12~14核4.6GHz,16~18核4.4GHz(2)GPU 支援雙GPU架構超算顯著優勢:和市場上單路cpu架構的工作站(單Xeon E5v4,單Xeon W-2100系列,單Xeon Schalable系列)相比,擁有超高頻率,在多核平行計算(特別是頻域求解),效能出眾
2.2 高效能運算工作站EX620
配置特點:
CPU 支援雙Xeon Schalable(可擴充套件)處理器,擁有更高頻率和更低延遲,中大規模時域與頻域求解,發揮極致效能提供規格:24核*4GHz/4.2GHz
36核3.7GHz/3.7GHz
40核3.1GHz/3.7GHz
48核*3.5GHz/3.7GHz
56核*3.3GHz/3.8GHz
GPU 支援雙GPU架構超算顯著優勢:和市場上常規雙路cpu工作站(雙Xeon E5v4,雙Xeon Schalable系列)相比,擁有更高頻率,多核平行計算(時域、頻域演算法),定位精準高效,顯式計算(EX620i)、顯式隱式計算通吃(EX620)
2.3 超大規模模擬計算機型Alpha720
配置特點:CPU 支援4顆Xeon E7v4處理器(最高到96核),擁有更高頻率和更低延遲,超大規模時域演算法求解,極致效能提供規格:72核2.8GHz,96核2.7GHz
GPU 支援雙GPU架構超算
顯著優勢市面上唯一的最快時域求解(CPU計算架構)工作站,極致效能還靜音
2.4 圖靈超算工作站GX490M或GX620M
GX490M配置特點:
CPU 具有超高的頻率,中小規模時域與頻域求解,發揮極致效能提供規格:10核4.8GHz,12~14核4.6GHz,16~18核4.4GHz
GPU 支援7塊雙槽GPU卡
GX620M配置特點:
CPU 支援雙Xeon Schalable(可擴充套件)處理器,擁有更高頻率和更低延遲,中大規模時域與頻域求解,發揮極致效能提供規格:24核4GHz,36核3.7GHz,40核3.1GHz,48核3.5GHz,56核3.3GHz
GPU 支援9塊雙槽GPU卡顯著優勢市面上唯一的基於辦公環境(靜音級)最強大GPU超算效能時域求解計算系統,同時兼顧頻域隱式演算法極致效能展現
各種機型效能與差異對比表
NO | 機型 | 硬體配置特點 | 適合應用 |
1 | H490 | 單CPU+雙GPU (14核4.7GHz,18核4.5GHz) | 中小規模頻域、時域演算法求解 |
2 | EX620i | 雙CPU(56核)+雙CPU | 大規模時域、頻域演算法求解 |
3 | EX620 | 雙CPU(56核)+雙GPU+並行儲存 | 大規模的全能求解 |
4 | GX490M | 單CPU+7個GPU+並行儲存 | 超大規模時域GPU超級 |
5 | GX620M | 雙CPU(56核)+9個GPU+並行儲存(16) | 超大規模全能求解、時域GPU求解 |
6 | Alpha720 | 四CPU(96核)+雙GPU+並行儲存 | 超大規模CPU架構時域求解 |
三.電磁模擬計算硬體配置(單機與叢集)推薦
提供單機CPU、單機GPU、叢集架構的全面完整,代表追求目前最快計算架構硬體配置方案。3.1 基於多種演算法(CPU計算)單機工作站硬體配置方案
No | 產品系列 | 主要配置 | 價格 | 備註 |
1 | UltraLAB H490 14632-S5TBA | intel第7代至尊處理器(14核4.6GHz+睿頻4.6GHz) /32GB DDR4 2666/512GB SSD +2TBSATA企業級/QP6002GB/23"圖顯 | 39,990 | CPU全能高效、高性價比 |
2 | UltraLAB H490 14464-S5TCA | intel第7代至尊處理器(18核4.4GHz+睿頻4.5GHz)/64GB DDR4 2666/500GB SSD+4TB SATA企業級/Quadro K600012GB/23"圖顯 | 72,000 | CPU+GPU全能極致高性價比 |
3 | UltraLAB EX620i 24096-SATCB | 2*Xeon Gold6146處理器(24核4.0GHz,睿頻4.2GHz) /96GB DDR4 2666/1TB SSD+6TB SATA /QP2000 5GB/23"圖顯 | 112,000 | 頻域極致效能 |
4 | UltraLAB EX620i 23196-SATCE | 2*Xeon Gold6148處理器(40核3.1GHz+睿頻3.7GHz) /96GB DDR4 2666/1TB SSD+6TB SATA /Quadro K600012GB/23"圖顯 | 126,000 | CPU+GPU時域全能求解 |
5 | UltraLAB EX620 237192-SA28TB | 2*Xeon Gold6154處理器(36核3.7GHz+睿頻3.7GHz) /192GB DDR4 2666/1TB SSD+28TB並行儲存/QP2000 5GB/23"圖顯 | 145,000 | CPU全能高效 |
6 | UltraLAB EX620 23596-MSATCC | 2*Xeon Gold8168處理器(48核3.5GHz+睿頻3.7GHz) /96GB DDR4 2666 /1TB閃電二代+1TB SSD+6TB SATA/QP4000 8GB /23"圖顯 | 189,000 | 時域求解 |
7 | UltraLAB EX620 23596-MSATCC | 2*Xeon Gold8168處理器(48核3.5GHz+睿頻3.7GHz) /192GB DDR4 2666 /2TB SSD +28TB並行儲存/QP4000 8GB /23"圖顯 | 215,000 | CPU全能高效 |
8 | UltraLAB EX620 233384-SB28TC | 2*Xeon Platinum 8180(56核3.3GHz+睿頻3.8GHz) /384GB DDR4/2TB SSD +28TB並行儲存/QP4000/23"圖顯 | 285,000 | CPU全能高效 |
9 | UltraLAB Alpha720 427256-SB42TF | 4*Xeon E7 8890v4(96核2.7GHz+睿頻3.3GHz)/256GB DDR4/2TB SSD +42TB並行儲存/Quadro GP100/32"-2K圖顯 | 399,990 | 超大規模CPU+GPU時域求解 |