初見-TensorRT簡介<轉>

阿新 • • 發佈：2018-05-03

copy 量化 tar 軟件包引擎夠快環境相對 load

下面是TensorRT的介紹，也可以參考官方文檔，更權威一些：https://developer.nvidia.com/tensorrt

關於TensorRT首先要清楚以下幾點：

1. TensorRT是NVIDIA開發的深度學習推理工具，只支持推理，不支持訓練；目前TensorRT3已經支持Caffe、Caffe2、TensorFlow、MxNet、Pytorch等主流深度學習庫；

2. TensorRT底層針對NVIDIA顯卡做了多方面的優化，不僅僅是量化，可以和 CUDA CODEC SDK 結合使用，也就是另一個開發包DeepStream；

3. TensorRT獨立於深度學習框架，通過解析框架文件來實現，不需要額外安裝DL庫；

 NVIDIA TensorRT是一種高性能神經網絡推理(Inference)引擎，用於在生產環境中部署深度學習應用程序，應用有圖像分類、分割和目標檢測等，可提供最大的推理吞吐量和效率。TensorRT是第一款可編程推理加速器，能加速現有和未來的網絡架構。
TensorRT需要CUDA的支持。TensorRT包含一個為優化生產環境中部署的深度學習模型而創建的庫，可獲取經過訓練的神經網絡(通常使用32位或16位數據)，並針對降低精度的INT8運算來優化這些網絡。借助CUDA的可編程性，TensorRT將能夠加速助推深度
神經網絡日益多樣化、復雜的增長趨勢。通過TensorRT的大幅度加速，服務提供商能夠以經濟實惠的成本部署這些計算密集型人工智能工作負載。

    已有來自各行各業的公司開始采用NVIDIA推理平臺，借助此從數據中獲得全新洞察，並為企業和消費者部署智能服務。

    TensorRT由英偉達(NVIDIA)發布，目前包括TensorRT1、TensorRT  
2、TensorRT 3，是深度學習軟件包，支持FP16特性。TensorRT支持使用Caffe的模型。TensorRT相對簡單易用，在深度學習算法推理階段能將GPU的計算能力更大程度釋放出來。
TensorRT在不斷的改進過程中，在保證軟件精度的同時，不斷提高速度。TensorRT針對運行時性能自動優化訓練過的神經網絡。

    TensorRT是一個C++庫。TensorRT只能用來做Inference(推理)，不能用來進行train。

    TensorRT基本處理過程：(1)、caffe model轉化GIE的model，或者從磁盤或者網絡加載GIE可用的model；(2)、運行GIE引擎(數據提前copy到GPU中)；(3)、提取結果。

    轉化GIE model兩種方式：( 
1)、caffeToGIEModel；(2)、參考sampleMNIST API自己構建GIE model.

    用深度神經網絡解決監督機器學習問題包含兩個步驟：第一步是使用GPU對海量標簽數據進行深度神經網絡訓練，訓練時需要叠代的通過網絡進行前向傳播和反向傳播。最終會生成訓練好的model文件。第二步是推理(Inference)即使用訓練好的模型對新
數據做出預測，僅需通過網絡進行前向傳播。TensorRT是一款高性能的推理引擎，旨在為常見的深度學習應用如圖像分類、分割、目標檢測等提供最大的推理吞吐量和效率。針對運行時性能，TensorRT會優化已訓練的神經網絡。

    使用TensorRT包含兩個階段：構建(build)和部署(deployment)。在構建階段，TensorRT對網絡配置進行優化，並生成一個優化了的plan用於計算深度神經網絡的前向傳播。這個plan是一個優化了的目標代碼，可以序列化存儲在內存或磁盤上。
部署階段通常采用長時間運行的服務或用戶應用程序的形式，該服務或用戶應用程序接受批量輸入數據，通過對輸入數據執行plan來執行推理，並返回批量輸出數據。使用TensorRT，你無需在部署硬件上安裝並運行深度學習框架。

    TensorRT構建階段：TensorRT運行時需要三個文件來部署一個分類神經網絡：一個網絡體系結構文件(deploy.prototxt)，已訓練的權值(net.caffemodel)和一個標簽文件為每個輸出類提供一個名稱。另外，你必須定義batch size和輸出層。

    TensorRT對神經網絡圖(neural network graph)進行了幾個重要的轉換和優化：消除未使用的輸出的層以避免不必要的計算；在可能的情況下，convolution、bias和ReLU層被融合以形成單個層，包括垂直層融合和水平層融合。
在TensorRT解析器讀入已訓練的網絡和配置文件後，TensorRT在構建階段對API用戶透明地執行其轉換。

    在構建階段，TensorRT優化網絡，在部署階段，TensorRT以最小化延遲和最大化吞吐量運行優化了的網絡。

    TensorRT 2.1關鍵特性：(1)、支持自定義層；(2)、INT8支持以用於性能改進；(3)、提供遞歸神經網絡(LSTM(Long Short-Term Memory)、GRU(Gated Recurrent Unit))實現；(4)、”original” RNN層實現。

    2017年9月，NVIDIA發布了神經網絡推理加速器TensorRT3，TensorRT 3是一款針對人工智能應用生產部署的高性能優化編譯器和運行時引擎，用於在生產環境中部署深度學習程序。它能夠快速優化、驗證並部署經過訓練的神經網絡，
從而在超大型數據中心、嵌入式GPU或車用GPU平臺上開展推理工作。它能夠確保高度精確的INT8和FP16網絡執行。

    TensorRT 3能支持Caffe2、Mxnet、Pytorch、TensorFlow等所有的深度學習框架，將TensorRT 3和NVIDIA的GPU結合起來，能在所有的框架中進行超快速和高效的推理傳輸，支持圖像和語言識別、自然語言處理、可視化搜索和個性化推薦等AI服務。
借助該推理引擎可以大幅提升雲端及包括機器人、無人駕駛汽車在內的終端設備的推理性能，並有效降低成本。

可從 https://developer.nvidia.com/nvidia-tensorrt-download 下載TensorRT 1.0和TensorRT2.1.

安裝TensorRT 2.1要求：

(1)、操作系統僅支持Ubuntu14.04或Ubuntu 16.04，目前不支持Windows和Mac；

(2)、安裝的CUDA要求是7.5或8.0;

(3)、有兩種方法安裝TensorRT2.1：通過deb包或者通過tar文件；

(4)、對於顯卡為GTX 750和K1200的用戶需要將CUDA升級到8.0。

TensorRT 2.1用戶指南可以參考： http://docs.nvidia.com/deeplearning/sdk/tensorrt-user-guide/index.html

以上部分內容翻譯於： https://devblogs.nvidia.com/parallelforall/deploying-deep-learning-nvidia-tensorrt/

GitHub： https://github.com/fengbingchun/CUDA_Test

TensorRT簡介

初見-TensorRT簡介<轉>

copy 量化 tar 軟件包引擎夠快環境相對 load 下面是TensorRT的介紹，也可以參考官方文檔，更權威一些：https://developer.nvidia.com/tensorrt 關於TensorRT首先要清楚以下幾點： 1.

<轉>CSS書寫規範、順序（推薦）

anim 輸入 head center ase 顏色表示基本合作 CSS書寫順序 1.位置屬性(position, top, right, z-index, display, float等) 2.大小(width, height, padding, margin) 3

<轉>How to Encourage Your Child's Interest in Science and Tech

sim challenge table nic options https fun developed advice How to Encourage Your Child‘s Interest in Science and Tech This week’s Ask-A-D

ActiveMQ兩種模式PTP和PUB/SUB<轉>

pub provide ops itl 通知 subscribe cin sdn cti 1.PTP模型 PTP(Point-to-Point)模型是基於隊列(Queue)的,對於PTP消息模型而言,它的消息目的是一個消息隊列(Queue),消息生產者每次發送消息總是把消

將且僅將UILabel上的所有數字變色指定的字體顏色<轉>

截取 @property elf range 設置變色其他天藍色 all 先提出一個場景，一個UILabel上面有各種數字字符中文字符以及字母等，現在我們想將其中的數字找出來並且變為和其他字符不同的顏色。這裏提出一個解決方法，通過for循環來截取一個一個字符，判斷其

<轉>github入門到上傳本地項目

style 麻煩 private glob 提交代碼創建桌面快捷方式 tegra 公司 dns 轉自 http://www.cnblogs.com/specter45/p/github.html GitHub是基於git實現的代碼托管。git是目前最好用的版本控制系統了，

UITableView的 beginUpdates 和 endUpdates<轉>

成對 option alt count ans 輸出 tab 中間 fin 先看Apple API Reference中對這兩個方法的描述 beginUpdates endUpdates 從上述描述中我們大概可以總結出四點 1、beginUpdates 和 endUpd

Java線程池關閉1-shutdown和isTerminated<轉>

ride shu csdn nat err interrupt .net fin cat shutdownvoid shutdown()啟動一次順序關閉，執行以前提交的任務，但不接受新任務。若已經關閉，則調用沒有其他作用。拋出：SecurityException - 如果安

線程的幾種狀態轉換<轉>

dead 4.4 所有 mon 結合函數語言進行指定時間線程在一定條件下，狀態會發生變化。線程一共有以下幾種狀態： 1、新建狀態(New)：新創建了一個線程對象。 2、就緒狀態(Runnable)：線程對象創建後，其他線程調用了該對象的start()方法。該狀

iOS10App如何跳轉到系統設置<轉>

pap open paper with 點擊 arr border obi nsurl 在最近做的一個Wi-Fi類的項目，需要實現類似萬能鑰匙中點擊一個Wi-Fi跳轉到系統Wi-Fi設置界面的功能。廢話我就不多說了，下面就是實現代碼了。 1 2 3 4 5 6

error C2039: 'SetDefaultDllDirectories'錯誤解決辦法<轉>

解決 lld src 驅動 .com default 問題頭文件 esp 使用VS2013+WDK8.1+Win7開發UMDF驅動，當使用了CComPtr類，包含了atlcomcli.h頭文件卻報錯，錯誤如下： Error 3 error C2039: ‘SetD

<轉>Java循環for, while和do...while

中一 article 必須 ria 方法調用 tty 一個 http date Java循環for, while和do...while 分類：java基礎（3293）（0）舉報收藏可能存在一種情況，當我們需要執行的代碼塊數次，並且通常被稱為一個循環。

ffmpeg最簡單的解碼保存YUV數據 <轉>

context 陣列 log fop content const www. += fopen video的raw data一般都是YUV420p的格式，簡單的記錄下這個格式的細節，如有不對希望大家能指出。 YUV圖像通常有兩種格式，一種是packet 還有一種是plan

VS2013 查看程序各個函數的CPU利用率<轉>

nts jsb eas 無法鎖定 tail bsp 圖片 b2c iss 自己寫的程序CPU占用率過高，無法鎖定原因時，可以用VS2013幫忙檢測 1. 打開VS 性能分析 2. 啟動項目進行檢測 3. 選擇CPU采樣完成 4. 分析一段時間然後停止分析 5. 選擇顯示

cocopod-AlamoFire<轉>

amp for 開發 upload ada 版本 ssi global network Alamofire框架的介紹和使用轉自<http://www.jianshu.com/p/dc7e7d5b0ae6> 一. 什麽是Alamofire （1）Alamofir

H264碼流中SPS PPS詳解<轉>

擴展 vlc 地址逗號部分級別軟件第一個 bottom 轉載地址：https://zhuanlan.zhihu.com/p/27896239 1 SPS和PPS從何處而來？ 2 SPS和PPS中的每個參數起什麽作用？ 3 如何解析SDP中

MapReduce教程(一)基於MapReduce框架開發<轉>

mat 路徑重寫 combine 自定義單詞 tools 必須 www. 1 MapReduce編程 1.1 MapReduce簡介 MapReduce是一種編程模型，用於大規模數據集（大於1TB）的並行運算,用於解決海量數據的計算問題。 MapReduce

C#操作字符串方法總結<轉>

字符串結束訪問 pad 刪除大寫替換字符 replace 字符數對齊 C#操作字符串方法總結 staticvoid Main(string[] args){ string s =""; //（1）字符訪問

k8s 集群基本概念<轉>

agen pro point 更新 host 規模 repl 網絡命令 nta k8s 集群基本概念轉《http://www.cnblogs.com/chris-cp/p/5766153.html》一、概述：　　kubernetes是google開源的容器集群管

VS2010生成的文件在別的機器上運行提示“丟失MSVCR100D.dll”<轉>

msvc 編寫 code lib das ash article 方案 blog 用vs2010編寫的程序經常會發生的一個問題。在自己的機器上運行的好好的，但是在別的機器上就會發生沒有找到MSVCR100D.dll。這是個很頭疼的問題。對於一些代碼量幾百行的小程序，我不可

初見-TensorRT簡介<轉>

TensorRT簡介

相關推薦