英偉達 TensorRT 8 上線，BERT 推理延遲僅有 1.2 毫秒

阿新 • • 發佈：2021-07-21

英偉達昨日釋出了其 TensorRT 的 8.0 版本。TensorRT 可以看作是在英偉達各種 GPU 硬體平臺下執行的一個深度學習推理框架，其核心是一個 C++ 庫。

開發者可以將其他框架訓練好的模型轉化為 TensorRT 格式，並通過 TensorRT 推理引擎提升該模型的執行速度。芯東西等媒體和英偉達 AI 軟體部的產品管理總監 Kari Briski、產品營銷主管 Siddharth Sharma 就 TensorRT 8 的技術細節、應用落地等進行了深入地探討。

此外，Kari Briski 和 Siddharth Sharma 也分享了英偉達團隊在推薦系統競賽中所取得的成績。

一、執行速度和精準度提升 1 倍，推理延遲僅有 1 毫秒

Kari Briski 首先回顧了英偉達 TensorRT 的推出背景和成績。她說，AI 模型正在以指數級的速度增長，很多公司不得不縮減模型大小以追求響應速度。而英偉達 2016 年推出的 TensorRT 可以幫助這些企業擴大其模型規模，提升精度。5 年來，已經有超過 35 萬名開發者下載了 250 萬次 TensorRT。TensorRT 7 也幫助英偉達創造了多項基準測試記錄。

而相比 7.0 版本，TensorRT 8 的執行速度和精準度都提升了 1 倍。此外，TensorRT 8 還有 2 項較為關鍵的特性，提升了其 AI 推理效能。

第一個是稀疏性（Sparsity）技術，該技術能夠提升英偉達 Ampere 架構 GPU 效能，可以在保持推理精度的同時，降低模型中的部分權重。這意味著模型所需的頻寬和記憶體也會更小。

第二個是量化感知訓練（Quantization Aware Training）。這使開發者能夠利用訓練好的模型，以 INT8 精度進行推理，既保證精度，也減少了計算和儲存成本。

▲ 英偉達 TensorRT 8 提升的效能

當前，開源 AI 公司 Hugging Face 和醫療方案解決商 GE 醫療正在應用 TensorRT。

Hugging Face 產品總監 Jeff Boudier 稱，通過採用 TensorRT 8，Hugging Face 在 BERT（預訓練的語言表徵模型）上的推理延遲僅有 1.2 毫秒。

GE 醫療心血管超聲首席工程師 Erik Steen 也談道，當前臨床醫生需要花費寶貴的時間來選擇和評估超聲影象。TensorRT 則憑藉其實時推理能力，提高了 GE 醫療的檢視檢測演算法效能，能夠加快臨床醫生的工作效率。

▲ 英偉達 TensorRT 的應用

二、連獲 3 項冠軍，7 分鐘即可完成 CPU 近 24 小時工作

除了 TensorRT 8 的具體細節，Kari Briski 和 Siddharth Sharma 也分享了英偉達推薦系統團隊在 RecSys 推薦系統資料科學競賽中所獲得的成績。推薦系統作為電腦科學較新的分支，能夠幫助網際網路使用者找到自己想看、想玩、想買的內容。

在本次 ACM RecSys 挑戰賽中，Twitter 會在 28 天內向參與者提供數百萬個數據點，要求他們預測使用者會點贊或轉發哪些推文。規則要求選手的模型上限為 20 千兆位元組，必須基於雲端 CPU 的單一核心執行，且時間不能超過 24 小時。

英偉達的 7 人團隊則第二次獲得了這一比賽的冠軍。

英偉達參賽成員之一的 Gilberto Titericz 認為，其推理模型需要去適應 CPU 核心是本次比賽的難點之一，對英偉達的團隊來說“就好像回到了遠古時代”。事實上，在比賽後，該團隊在單個 NVIDIA A100 Tensor Core GPU 上運行了比賽模型，CPU 花費將近 24 小時的工作，英偉達 A100 GPU 僅用了 7 分鐘就完成執行。

此前 5 個月中，英偉達還參與了 Booking.com 挑戰賽和 SIGIR 電子商務資料挑戰賽。前者要求選手使用匿名資料點預測歐洲度假者最終選擇前往的城市，後者則提供了 3700 萬個資料點要求選手預測消費者會購買哪些產品。

這 2 項比賽吸引了阿里巴巴、沃爾瑪等企業參與，而英偉達最終獲得了 2 項比賽的冠軍。

▲ 英偉達推薦系統團隊

結語：TensorRT 可有效提升英偉達 GPU 推理表現

TensorRT 作為英偉達 GPU 的推理庫，5 年中更新了 7 個版本。本次，英偉達推出的 TensorRT 8 相比上一版本再次有較大幅度的效能提升，側面體現出了英偉達對推理領域的重視。

另外，TensorRT 也支援 Python 呼叫，可在資料中心、嵌入式和汽車等平臺中應用。TensorRT 可以提升視訊流傳輸、語音識別、推薦和自然語言處理等工作的推理延遲，滿足了許多實時服務、自動和嵌入式應用的要求。

英偉達 TensorRT 8 上線，BERT 推理延遲僅有 1.2 毫秒

一、執行速度和精準度提升 1 倍，推理延遲僅有 1 毫秒

二、連獲 3 項冠軍，7 分鐘即可完成 CPU 近 24 小時工作

結語：TensorRT 可有效提升英偉達 GPU 推理表現

英偉達 TensorRT 8 上線，BERT 推理延遲僅有 1.2 毫秒

小米第二代 OLED 電視獲英偉達 G-SYNC 認證，8 月 10 日釋出

惠普 Envy 17 更新：英特爾 11 代 Tiger Lake 處理器和英偉達 MX450 獨顯，約 6500 元

彭博社：任天堂新款 Switch 將採用英偉達升級款晶片，支援 DLSS

華碩：因英偉達供貨太少，一季度顯示卡出貨量降低了 1/4

部分海外平臺提前上架英偉達 RTX 3080 Ti，售價 8660 元以上

英偉達 DLSS 同款，AMD FSR 超取樣技術釋出：可調 4 檔畫質，N 卡同樣可用

高通總裁安蒙：若英偉達收購 Arm 失敗，我們便將出手投資

訊息稱英偉達加大 RTX3060 供應量，重點支援網咖

《仙劍奇俠傳七》將支援英偉達 RTX 光追，今晚公佈實機演示視訊

為高通、英偉達等生產晶片，三星電子：考慮上調漲晶圓代工價格

穿越火線《CFHD》將支援英偉達 NVIDIA Reflex 技術，延遲更低

美股週一納指創新高：英偉達漲超 5%，新東方跌逾 6%

美國能源部接近採購英偉達版超級計算機，英特爾版已推遲數月

金融時報：若英偉達收購 Arm 失敗，軟銀將拿到 13 億美元補償費

特斯拉營收太低週二微跌但仍保持萬億美元市值，英偉達漲超 6%，拼多多跌逾 7%

華碩曝光 PCIe 5.0 12-pin 供電介面：與英偉達專用口相似，最高 600W

英偉達 GTC 大會開啟，黃仁勳主題演講將聚焦 AI

美國 FTC 提起訴訟叫停英偉達收購 ARM 交易，稱其損害美國人利益

美國百強僱主榜單：英偉達摘得桂冠，Meta 下跌 36 名，Zoom 吊車尾

英偉達 TensorRT 8 上線，BERT 推理延遲僅有 1.2 毫秒

一、執行速度和精準度提升 1 倍，推理延遲僅有 1 毫秒

二、連獲 3 項冠軍，7 分鐘即可完成 CPU 近 24 小時工作

結語：TensorRT 可有效提升英偉達 GPU 推理表現

相關推薦