英偉達:美團機器學習平臺使用 NVIDIA T4 GPU,相比同成本 CPU 效能提升 10 倍
阿新 • • 發佈:2021-12-25
12 月 25 日訊息,據英偉達官方訊息,美團機器學習平臺使用 NVIDIA GPU,通過運算元融合、計算圖等價替換等一系列優化 ,相較於 CPU 在相同成本約束下,NVIDIA T4 GPU 大幅加速美團 CTR(Click-Through-Rate)模型預測效能,神經網路模型吞吐能力提升了 10 倍;同時在搜尋精排場景中,端到端整體吞吐能力提升了一倍以上。
英偉達表示,美團的 CTR 模型過去一直在使用 CPU 推理的方式,但隨著使用者訪問量的提升和深度神經網路的引入,CTR 模型結構趨於複雜,吞吐和計算量也越來越大,CPU 開始不能滿足模型對於算力的需求,而僅僅通過 CPU 伺服器的堆疊帶來的效能提升價效比相較偏低。而 GPU 擁有數以千計的計算核心,可以在單機內提供密集的平行計算能力,特別適合深度學習場景,在行業內已經在 CV、NLP 等領域展示了強大的能力。通過 CUDA 及相關 API,NVIDIA 建立了完整的 GPU 生態系統。基於此,美團基礎研發平臺將 CTR 模型部署到 GPU 上,並通過一系列針對 CPU 與 GPU 的異構系統平行計算設計、資料儲存方式和傳輸方式上的特定優化。
瞭解到,NVIDIA Tesla T4 GPU 是一款推理加速器,搭載 NVIDIA Turing Tensor Core。官方稱,NVIDIA Tesla T4 GPU 具備人工智慧推理的多精度計算效能,從 FP32 到 FP16 再到 INT8,又到 INT4 精度,T4 的效能比 CPU 高出 40 倍,實現效能的重大突破。