深度學習之環境配置

阿新 • • 發佈：2022-05-11

我們都知道，在學習計算機的過程中，總會出現各種各樣的問題，這一點我想計算機專業的夥伴們感同身受；更別說在學習深度學習的過程中了。

接下來，就介紹一下幾個深度學習過程中幾個典型而又容易範的錯誤。

(1) 注意cuda、cudnn、cuda driver和cudatoolkit的版本
cuda是nvidia推出的用於自家GPU的平行計算框架，也就是說cuda只能在nvidia的GPU上執行，而且只有當要解決的計算問題是可以大量平行計算的時候才能發揮cuda的作用。
cudnn是nvidia打造的針對深度神經網路的加速庫，是一個用於深層神經網路的GPU加速庫。如果你要用GPU訓練模型，cudnn不是必須的，但是一般會採用這個加速庫。
cuda driver即cuda驅動器，是用來支援cuda執行的必備程式。而cudatoolkit則是cuda相關的工具包。
以上四者之間必須有個版本對應和匹配的問題。有時候安裝keras GPU版本的時候會預設安裝cudatoolikit 10.0，這時候如果你cuda是9.0的版本的話，一般會報個CUDA driver version is insufficient for CUDA的錯誤。如下所示：

這時候你可能需要降低cudatoolkit的版本：

conda install cudatoolkit==9.0

還有一種常見的錯誤是cuda driver的驅動器跟cuda不匹配。執行nvidia-smi命令會出現如下圖錯誤：

Failed to initialize NVML: Driver/library version mismatch

這裡是nvidia官方給出的關於cuda和cuda driver之間版本對應關係：

在版本不匹配時，適當降低或者更新驅動器版本即可。另外驅動器版本更新之後可能需要重啟系統，當然通過如下方法不用重啟也可以更新版本。首先嚐試刪除nvidia相關的kernel mod

sudo rmmod nvidia
//這裡介紹的為linux版本的

當然這裡一般會報個Module nvidia is in use by的錯誤。（不礙事的），接下來我們先檢視下kernel mod 的依賴情況：

ls mod | grep nvidia

根據根據結果逐一rmmod即可

sudo rmmod nvidia_uvm
sudo rmmod nvidia_modeset

最後再rmmod nvidia即可達到驅動器更新效果

sudo rmmod nvidia
nvidia-smi

還有一種報錯是cudnn版本不匹配的問題：

此時直接更新cudnn版本即可

（2）驗證TensorFlow/Keras/Torch版本是否支援GPU加速
雖說按部就班的配環境好像也沒啥大問題，但要想讓你的TensorFlow和Torch順利用上GPU跑起來並不是一件那麼順利的事。此時，直接使用nvidia-smi命令並不能表明TensorFlow就能順利用上GPU
比如說我們用Keras跑模型時指定了GPU，有時候會報如下錯誤：

一方面，你的機器可能確實沒有那麼多GPU，另外一種可能就是你沒有安裝支援GPU的TensorFlow或者Keras版本。這時候我們可以先來驗證下當前的TensorFlow或Keras是否支援GPU。
先來看TensorFlow：

from tensorflow.python.client import device_lib
print(device_lib.list_local_devices())

如果輸出結果有類似上述包含GPU的資訊，那說明你的tensorflow是支援GPU的。再看keras：

from keras import backend as K
print(K.tensorflow_backend._get_available_gpus())

如果能輸出下述包含GPU的資訊的話那說明當前的keras版本也是支援GPU的

Torch的話安裝到時候一般都會根據官網的配置要求來：

安裝後輸入下列命令即可：

import torch
torch.cuda.is_available()

如果輸出為True的話則表明當前的torch是支援GPU加速的

如果你沒有得到上述的輸出結果，那麼需要重新安裝帶gpu版本的tensorfow或者keras：

pip install tensorflow-gpu
conda install keras-gpu

（3）最後再介紹一個免費的GPU資源
如果大家沒有GPU資源又或者嫌配置太糟心，我們還是有免費的GPU可以褥的。一個是谷歌的colab，自動支援GPU，大家可以直接去褥。另外一個是kaggle競賽平臺的kernel，裡面也是提供GPU算力的、還有FlyAI等等。
colab目前提供的GPU已經由之前K80升級到了Tesla T4：

kaggle提供的則是Tesla P100：

colab地址：

https://colab.research.google.com/notebooks/

kaggle地址：

https://www.kaggle.com/

FlyAI地址：

https://www.flyai.com/

沒了。。。。。

深度學習之環境配置

我們都知道，在學習計算機的過程中，總會出現各種各樣的問題，這一點我想計算機專業的夥伴們感同身受；更別說在學習深度學習的過程中了。

使用亞馬遜AWS雲伺服器進行深度學習——免環境配置/GPU支援/Keras/TensorFlow/OpenCV

前言吐槽：由於科研任務，需要在雲端執行一個基於神經網路的目標識別庫，需要用到GPU加速。亞馬遜有很多自帶GPU的機器，但是環境的配置可折騰壞了，尤其是opencv，每次總會出各種各樣的問題！

2020-12-17配置Ubuntu18.04深度學習開發環境

技術標籤：安裝教程一、硬體簡介顯示卡型別：GeForce GTX 1060 mobile 顯示卡驅動：NVIDIA-SMI 450.66

人工智慧之深度學習-初始環境搭建（安裝Anaconda3和TensorFlow2步驟詳解）

人工智慧之深度學習簡介、PyCharm環境配置（安裝Anaconda3和TensorFlow2步驟詳解）和簡單的python例項演示。可以幫助你更加深入的瞭解人工智慧，機器學習和深度學習之間的關係。

Python連線Oracle之環境配置、例項程式碼及報錯解決方法詳解

Oracle Client 安裝 1、環境日期：2019年8月1日公司已經安裝好Oracle服務端 Windows版本：Windows10專業版

深度學習伺服器完整配置手冊（三、GPU顯示卡cuda和驅動一起安裝，docker安裝）

引用： https://developer.nvidia.com/cuda-downloads https://blog.csdn.net/FYZ530357172/article/details/79217460

SpringCloudAlibaba-入門學習之環境搭建

環境搭建模組設計 springcloud-alibaba 父工程 shop-common公共模組【實體類】 shop-user使用者微服務【埠: 807x】

pytorch深度學習之音訊librosa庫與torchaudio庫的安裝與使用

pytorch深度學習之音訊librosa庫與torchaudio庫的安裝與使用搭建pytorch 基本框架與 anaconda pytorch虛擬環境建立，去看這裡

深度學習之Pytorch（一）神經網路基礎及程式碼實現

1.1 Tensor (張量) Tensor 可以和 numpy 的 ndarray相互轉換Tensor有不同資料型別，有32位浮點型torch.FloatTensor、64位浮點型 torch.DoubleTensor等

運維學習之DNS配置快取記憶體

一、DNS DNS（Domain Name System，域名系統），因特網上作為域名和IP地址相互對映的一個分散式資料庫，能夠使使用者更方便的訪問網際網路，而不用去記住能夠被機器直接讀取的IP數串。通過主機名，最終得到

逆向學習之環境準備

1、前言：　　最近在工作過程中，公司前輩給了一個需求，學習逆向。現在需要做一個完整的學習計劃。

深度學習之資料劃分

技術標籤：Python 使用步驟 1.匯入相關包： from sklearn.datasets import load_iris from sklearn.datasets import fetch_20newsgroups from sklearn.model_selection import train_test_split 2.例項化物件:li

用Anaconda+PyCharm搭建深度學習開發環境/安裝conda環境/conda pip下載換源

技術標籤：深度學習機器學習神經網路深度學習pytorch 文章目錄一、檢視環境二、使用Anaconda Powershell Prompt安裝環境三、下載並安裝Packages更換預設下載源Conda更換成清華下載源如果Conda無法下載某些P

深度學習之文字特徵值抽取

技術標籤：Python 首先構建三個字串： str1="疫情之下，全球化的道路將得到更多支援票還是反對票？人類社將更渴求一個相容幷包、相互支撐、分工合作的共生體，還是各自封閉，在保護主義和單邊主義的矯飾中飲

深度學習之格式轉換筆記(二)：CKPT 轉換成 PB格式檔案

技術標籤：深度學習pythontensorflow深度學習我們使用tf.train.saver()儲存模型時會產生多個檔案，也就是說把計算圖的結構和圖上引數取值分成了不同的檔案儲存。這也是在tensorflow中常用的儲存方式。

深度學習之資料增強一（opencv影象填充）

技術標籤：opecv學習pythonopencv深度學習本文目的：將所有影象等比例縮放到小於224x224x3，然後再對不足224x224x3部分填充黑邊，達到所有圖片都是224x224x3的規格。本人才疏學淺，也不知道如何準確論證為何填

基於docker的深度學習開發環境

docker 安裝docker (release>=19.02)安裝NVIDIA Container Toolkit https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#docker

深度學習之梯度下降法

目錄代價函式梯度下降法奇怪的結果科學家是如何把一個棘手的問題（影象分類）轉換成了一個自己熟悉的好量化的問題（優化）。而在深度學習上，我們就是用梯度下降法建立了一個可量化的評判標準——利用“代價”這個

深度學習之反向傳播演算法

目錄直觀理解反向傳播反向傳播的微積分原理直觀理解反向傳播反向傳播演算法是用來求非常複雜的梯度的。梯度向量每一項的大小，是在說代價函式對每一個引數有多敏感。

深度學習之資料處理方法綜述

深度學習之資料處理方法綜述一、資料對人工智慧的重要性在實現以深度學習為主的人工智慧任務的過程中，有三大基本要素是缺一不可的，那就是算力、演算法、資料（點選檢視：實現人工智慧的三要素）。

深度學習之環境配置

相關推薦