TensorFlow使用GPU計算加速

阿新 • • 發佈：2018-11-21

使用方法：tf.device(‘/cpu:0’)或tf.device(‘/gpu:0’)。

例項：

import tensorflow as tf

with tf.device('/cpu:0'):
    a = tf.constant([1.,2.,3.],shape=[3],name='a')
    b = tf.constant([2.,3.,4.],shape=[3],name='b')
with tf.device('/gpu:0'):
    c = a + b

sess = tf.Session(config=tf.ConfigProto(log_device_placement=True 
))
sess.run(c)

會打印出：

2018-07-10 23:48:12.430066: I tensorflow/core/common_runtime/placer.cc:886] add: (Add)/job:localhost/replica:0/task:0/device:GPU:0

2018-07-10 23:48:12.430081: I tensorflow/core/common_runtime/placer.cc:886] b: (Const)/job:localhost/replica:0/task:0/device:GPU:0

2018-07-10 23:48:12.430087: I tensorflow/core/common_runtime/placer.cc:886 
] a: (Const)/job:localhost/replica:0/task:0/device:GPU:0

在預設情況下，即使機器有多個cpu，Tensorflow也不會去區分它們，統一使用/cpu:0。

而同一臺機器上不同GPU的名稱是不同的，如/gpu:0，/gpu:1等。

預設情況下，Tensorflow優先使用GPU。

需要注意的是，在Tensorflow上，不是所有的操作都可以放在GPU上的，如：

import tensorflow as tf

a_cpu = tf.Variable(0,name='a_cpu')
with tf.device('/gpu:0'):
    a_gpu = tf.Variable(0 
,name='a_gpu')

with tf.Session(config=tf.ConfigProto(log_device_placement=True)) as sess:
    sess.run(tf.initialize_all_variables())

則會報錯：

InvalidArgumentError (see above for traceback): Cannot assign a device for operation 'a_gpu': Could not satisfy explicit device specification '/device:GPU:0' because no supported kernel for GPU devices is available.
Colocation Debug Info:
Colocation group had the following types and devices: 
Assign: CPU 
VariableV2: CPU 
Identity: CPU 

Colocation members and user-requested devices:
  a_gpu (VariableV2) /device:GPU:0
  a_gpu/read (Identity) /device:GPU:0
  a_gpu/Assign (Assign) /device:GPU:0

Registered kernels:
  device='CPU'
  device='GPU'; dtype in [DT_INT64]
  device='GPU'; dtype in [DT_DOUBLE]
  device='GPU'; dtype in [DT_FLOAT]
  device='GPU'; dtype in [DT_HALF]

     [[Node: a_gpu = VariableV2[container="", dtype=DT_INT32, shape=[], shared_name="", _device="/device:GPU:0"]()]]

為了避免這個問題，可以在生成Session時指定allow_soft_placement=True，當運算無法在GPU上執行時，會自動將運算放到CPU上。

用法：

sess = tf.Session(config=tf.ConfigProto(log_device_placement=True,allow_soft_placement=True))

Tensorflow會預設佔用裝置所有GPU以及每個GPU上的視訊記憶體，如果只使用部分GPU可以：

（注：雖然佔用所有GPU，但是會優先使用/GPU:0）

#命令列用法
CUDA_VISIBLE_DEVICES=0,1 python demo.py

或者

#在程式碼中使用
import os

os.environ['CUDA_VISIBLE_DEVICES'] = '0,1'

TensorFlow預設一次性佔用GPU的所有視訊記憶體，但是也支援動態分配GPU的視訊記憶體，使得不會一開始就佔滿所有視訊記憶體。

config = tf.ConfigProto()
config.gpu_options.allow_growth = True
#也可以直接按固定的比例分配
#config.gpu_options.per_process_gpu_memory_fraction = 0.4
sess = tf.Session(config=config)

總結幾個引數

log_device_placement：將執行每一個操作的裝置輸出到螢幕上。

allow_soft_placement：將GPU上不能執行的運算自動放到CPU上執行。

allow_growth：動態分配GPU視訊記憶體。

per_process_gpu_memory_fraction：按比例分配GPU視訊記憶體。

TensorFlow使用GPU計算加速

使用方法：tf.device(‘/cpu:0’)或tf.device(‘/gpu:0’)。例項： import tensorflow as tf with tf.device('/cpu:0'): a = tf.constant([1.,2.,3.],shape=[3],

【Python-GPU加速】基於Numba的GPU計算加速（一）基本

Numba是一個可以利用GPU/CPU和CUDA 對python函式進行動態編譯，大幅提高執行速度的加速工具包。利用修飾器@jit,@cuda.jit,@vectorize等對函式進行編譯 JIT：即時編譯，提高執行速度基於特定資料型別

實戰 Google 深度學習框架：TensorFlow 計算加速

# -*- coding: utf-8 -*- from datetime import datetime import os import time import tensorflow as tf import mnist_inference # 定義訓練神經網路時需要用到的配置。這些配置與5.5節中

Tensorflow計算加速

將深度學習應用到實際問題中, 一個非常大的問題在於訓練深度學習模型需要的計算量太大。但幸好我們可以通過 TensorFlow 利用 GPU 或/和分散式計算進行模型訓練。我們可以使用單個 GPU 進行計算加速，但是，在很多情況下,單個 GPU 的加速效率無法滿足訓練大型深

neuFlow&CNP-卷積計算加速器&神經網絡加速芯片生態系統

技術非線性訓練方向 3*3 網絡加速網絡一個嵌入式系統上周看到韓松畢業論文，扯出神經網絡加速器EIE，剛好這周調研了一下neuFlow，扯出09年的一篇做卷積加速的文章，大牛Lecun Yan的學生做的，一晃眼，快十年了。也記錄之。這一套還沒研究透，又被換了

真實感海洋的繪制（二）：使用快速傅裏葉變換加速波形計算

image 完全 eps gpu spa 可能 src 重寫時間真實感海洋的繪制（二）：使用快速傅裏葉變換加速波形計算其實上一篇博文所寫的\(H(\vec{x},t)?\)，就是二維傅裏葉變換的求和式，之前的暴力計算法屬於二維的離散傅裏葉變換（Discrete Fou

雲計算超融合一體機，加速企業互聯網下半程

openstack 混合雲雲服務雲計算 2018年5月，中國軟件網、海比研究聯合出品了《2018中國企業服務生態發展狀況研究報告》，該報告得出的結論是2018年企業上雲將呈現三大特點，即大型企業上雲減速，中型企業上雲加速，小微企業上雲加加速。而2018年大型企業上雲的積極性有所減弱，主要原

我們是如何實現邊緣計算與網絡動態加速的？

20px sel 我們計算節點基礎服務延時 add base 建議邊緣計算，一種通俗理解是將計算和存儲等服務放在網絡邏輯邊緣節點上的一種分散式架構，通過將原本中心化的服務分散到邊緣節點處理，讓數據的運算和存儲更接近數據來源，減少網絡傳輸的數據量和訪問延時。它不但側重

矩陣乘法來加速遞推式計算

span code 分享 pow quic mage src .com image Codevs1281: 給你6個數，m, a, c, x0, n, g Xn+1 = ( aXn + c ) mod m，求Xn 計算遞推式，運用矩陣來進行計算加速然後註意用類似快速冪的

MATLAB上的GPU加速計算——學習筆記 (2014-12-22 04:44:05)

轉自：http://blog.sina.com.cn/s/blog_6f062c360102v9ic.html MATLAB可謂工程計算中的神器，一方面它自帶豐富的函式庫，另一方面它所有的資料都是內建的矩陣型別，最後畫圖也方便，因此解決一些小規模的計算問題如果對效能要求不高的話

MATLAB上的GPU加速計算

【時間】2018.10.12 【題目】MATLAB上的GPU加速計算概述怎樣在MATLAB上做GPU計算呢?主要分為三個步驟：資料的初始化、對GPU資料進行操作、把GPU上的資料回傳給CPU 一、資料的初始化首先要進行資料的初始化。有兩種

HybridDB for MySQL計算規格全面加速OLAP場景

前言在2018年雙十一中，阿里雲資料庫HybridDB為幾十萬商家提供資料驅動的店鋪智慧服務，也為幾千小二提供了高效的資料化服務產品，大大提高生產效率。盒馬實時交易大盤使用HybridDB實現盒馬全鏈路的資料實時閉環，支撐1000多張表的複雜查詢，平均查詢延遲1秒以內，大大提高了新零售的資料化能力。

使用opencv作物件識別（一） —— 積分直方圖加速HOG特徵計算

使用opencv作物件識別（一） —— 積分直方圖加速HOG特徵計算方向梯度直方圖（Histograms of Oriented Gradients，簡稱HOG特徵）結合支援向量機（ support vector machine，簡稱SVM），被廣泛應用於影象識別中，尤

三軸加速計資料計算傾斜角演算法

1.傾斜角測量原理對於軸加速度感測器，當它的感測方向和重力加速度方向一致時，假如此時為零傾斜角度，設加速度感測器測量結果為F(θ)，θ為傾斜角度，g為重力加速度，如圖1所示。　所以當傾斜角

應用AI晶片加速 Hadoop 3.0 糾刪碼的計算效能

本文由雲+社群發表做為大資料生態系統中最重要的底層儲存檔案系統HDFS，為了保證系統的可靠性，HDFS通過多副本的冗餘來防止資料的丟失。通常，HDFS中每一份資料都設定兩個副本，這也使得儲存利用率僅為1/3，每TB資料都需要佔用3TB的儲存空間。隨著資料量的增長，複製的代

應用AI芯片加速 Hadoop 3.0 糾刪碼的計算性能

solo 參數他會 raft 組成 mlp 通過 RoCE 輸入本文由雲+社區發表做為大數據生態系統中最重要的底層存儲文件系統HDFS，為了保證系統的可靠性，HDFS通過多副本的冗余來防止數據的丟失。通常，HDFS中每一份數據都設置兩個副本，這也使得存儲利用率僅為

GPU】基於Python的GPU加速平行計算 -- pyCUDA

Python實現的CUDA – pyCUDA Nvidia的CUDA 架構為我們提供了一種便捷的方式來直接操縱GPU 並進行程式設計，但是基於 C語言的CUDA實現較為複雜，開發週期較長。而pyth

GPU對CNN計算的加速原理到底是怎樣的？

具體到cnn，利用gpu加速主要是在conv（卷積）過程上。conv過程同理可以像以上的向量加法一樣通過cuda實現並行化。具體的方法很多，不過最好的還是利用fft（快速傅立葉變換）進行快速卷積。NV

在Android端使用OpenGL的compute shader加速計算

在Android端使用compute shader需要OpenGL ES3.1，即Android5.1以上的平臺。可能是oples的原因，在Android上使用compute shader有幾個注意要點：生成texture時不能使用glTexIamge2D，需使用glTex

利用GPU平行計算來加速簡單積分過程的實驗

由於CPU的摩爾定律已經不再適用，目前加速程式的最佳選擇就是通過GPU並行。經過幾天的摸索後，完成了這個利用GPU加速積分演算法的小實驗。數值積分中最常用的方法之一就是辛普森積分法，首先我們寫出一段三階辛普森積分的小程式： double Simpson_integ (i

TensorFlow使用GPU計算加速

總結幾個引數

相關推薦