torch多顯示卡訓練負載均衡

阿新 • • 發佈：2021-01-15

本文主要解決pytorch在進行模型訓練時出現GPU的0卡佔用視訊記憶體比其他卡要多的問題。
如下圖所示：本機GPU卡為TITAN RTX，視訊記憶體24220M，batch_size = 9，用了三張卡。第0卡視訊記憶體佔用24207M，這時僅僅是剛開始執行，資料只是少量的移到顯示卡上，如果資料在多點，0卡的視訊記憶體肯定撐爆。出現0卡視訊記憶體更高的原因：網路在反向傳播的時候，計算loss的梯度預設都在0卡上計算。因此會比其他顯示卡多用一些視訊記憶體，具體多用多少，主要還要看網路的結構。
在這裡插入圖片描述
因此，為了防止訓練由於 out of memory 而中斷。比較笨的辦法是將batch_size設為6，即每張卡放2條資料。

batch_size = 6時，其他不變，如下圖所示
在這裡插入圖片描述

有沒有發現問題？視訊記憶體只用了1，2卡的視訊記憶體只用了16G不到。就因為0卡可能會超那麼一點點視訊記憶體，而犧牲了batch_size。
那麼沒有更優雅的方法呢？答案是肯定的。那就是借用下transformer-xl中用到的 BalancedDataParallel類。程式碼如下（程式碼出處）：

import torch
from torch.nn.parallel.data_parallel import DataParallel
from torch.nn.parallel.parallel_apply import parallel_apply
from torch.nn.parallel._functions import Scatter

def scatter(inputs, target_gpus, chunk_sizes, dim=0):
r"""
Slices tensors into approximately equal chunks and
distributes them across given GPUs. Duplicates
references to objects that are not tensors.
“”"

def scatter_map(obj):
    if isinstance(obj, torch.Tensor):
        try:
            return Scatter.apply(target_gpus, chunk_sizes, dim, obj)
        except Exception:
            print('obj', obj.size())
            print('dim', dim)
            print('chunk_sizes', chunk_sizes)
            quit()
    if isinstance(obj, tuple) and len(obj) &gt; 0:
        return list(zip(*map(scatter_map, obj)))
    if isinstance(obj, list) and len(obj) &gt; 0:
        return list(map(list, zip(*map(scatter_map, obj))))
    if isinstance(obj, dict) and len(obj) &gt; 0:
        return list(map(type(obj), zip(*map(scatter_map, obj.items()))))
    return [obj for targets in target_gpus]

# After scatter_map is called, a scatter_map cell will exist. This cell
# has a reference to the actual function scatter_map, which has references
# to a closure that has a reference to the scatter_map cell (because the
# fn is recursive). To avoid this reference cycle, we set the function to
# None, clearing the cell
try:
    return scatter_map(inputs)
finally:
    scatter_map = None

def scatter_kwargs(inputs, kwargs, target_gpus, chunk_sizes, dim=0):
“”“Scatter with support for kwargs dictionary”""
inputs = scatter(inputs, target_gpus, chunk_sizes, dim) if inputs else []
kwargs = scatter(kwargs, target_gpus, chunk_sizes, dim) if kwargs else []
if len(inputs) < len(kwargs):
inputs.extend([() for _ in range(len(kwargs) - len(inputs))])
elif len(kwargs) < len(inputs):
kwargs.extend([{} for _ in range(len(inputs) - len(kwargs))])
inputs = tuple(inputs)
kwargs = tuple(kwargs)
return inputs, kwargs

class BalancedDataParallel(DataParallel):

def __init__(self, gpu0_bsz, *args, **kwargs):
    self.gpu0_bsz = gpu0_bsz
    super().__init__(*args, **kwargs)

def forward(self, *inputs, **kwargs):
    if not self.device_ids:
        return self.module(*inputs, **kwargs)
    if self.gpu0_bsz == 0:
        device_ids = self.device_ids[1:]
    else:
        device_ids = self.device_ids
    inputs, kwargs = self.scatter(inputs, kwargs, device_ids)
    if len(self.device_ids) == 1:
        return self.module(*inputs[0], **kwargs[0])
    replicas = self.replicate(self.module, self.device_ids)
    if self.gpu0_bsz == 0:
        replicas = replicas[1:]
    outputs = self.parallel_apply(replicas, device_ids, inputs, kwargs)
    return self.gather(outputs, self.output_device)

def parallel_apply(self, replicas, device_ids, inputs, kwargs):
    return parallel_apply(replicas, inputs, kwargs, device_ids)

def scatter(self, inputs, kwargs, device_ids):
    bsz = inputs[0].size(self.dim)
    num_dev = len(self.device_ids)
    gpu0_bsz = self.gpu0_bsz
    bsz_unit = (bsz - gpu0_bsz) // (num_dev - 1)
    if gpu0_bsz &lt; bsz_unit:
        chunk_sizes = [gpu0_bsz] + [bsz_unit] * (num_dev - 1)
        delta = bsz - sum(chunk_sizes)
        for i in range(delta):
            chunk_sizes[i + 1] += 1
        if gpu0_bsz == 0:
            chunk_sizes = chunk_sizes[1:]
    else:
        return super().scatter(inputs, kwargs, device_ids)
    return scatter_kwargs(inputs, kwargs, device_ids, chunk_sizes, dim=self.dim)

從程式碼中可以看到，BalancedDataParallel繼承了 torch.nn.DataParallel，之後通過自定義0卡batch_size的大小gpu0_bsz，即讓0卡少一點資料。均衡0卡和其他卡的視訊記憶體佔用。呼叫程式碼如下：

import BalancedDataParallel

if n_gpu > 1:
model = BalancedDataParallel(2, model, dim=0).to(device)
# model = torch.nn.DataParallel(model)

gpu0_bsz：GPU的0卡batch_size;
model：模型；
dim：batch所在維度

因此，我們不妨將剛才的batch_size設為8，即gpu0_bsz=2試試，結果如下：
在這裡插入圖片描述
成功的將batch_size從6調整到了8，因為0卡少放了一個batch，因此，會比其他的卡少。但是犧牲一張卡的視訊記憶體，換取其他卡的視訊記憶體，最終提高了batch_size，還是可取得。特別是當卡數目比較多的時候，這種方法的優勢就更明顯了。

torch多顯示卡訓練負載均衡

torch多顯示卡訓練負載均衡

keras多顯示卡訓練方式

基於LVS、Nginx和Redis的多服務高可用負載均衡叢集方案設計與實踐

Tomcat多例項部署及負載均衡、動靜分離

lvs+keepalived實現k8s多master叢集負載均衡

Clash – 非常強大的基於規則的多平臺代理客戶端 | 支援Socks5/Shad0ws0cks/VMess/Trojan/Snell等協議 | 強大的負載均衡分流能力

windows下同一個顯示卡配置多個CUDA工具包以及它們之間的切換

基於nginx負載均衡及frp的內網穿透例項3-多使用者多網站共用80埠

AMD釋出新顯示卡驅動《殺手3》4K效能最多提升10%

技嘉在 EEC 註冊多款 AMD RX 6700 XT 顯示卡，確認搭載 12GB 視訊記憶體

EVGA 釋出 SuperNova 1300 M1 挖礦電源：支援最多 6 顯示卡供電

多家廠商下架 RTX 3090 渦輪散熱顯示卡，部分型號確認停產

微星釋出多款遊戲本新品：搭載英特爾 H45 標壓處理器和 RTX 30 系顯示卡

AMD正式釋出FSR超級解析度銳畫技術相容100多款AMD處理器和顯示卡

英偉達多款 RTX 3080 定製顯示卡亮相 BW2021 展

nginx配置、負載均衡多個服務、配置比重

《光環：無限》測試後修復9系顯示卡問題降低CPU負載提高GPU效能

必須要掌握的開源Web應用伺服器—Tomcat多例項和負載均衡

Blog.053 Tomcat 服務多例項與負載均衡

Tomcat多例項和負載均衡

torch多顯示卡訓練負載均衡

相關推薦