MXNet原始碼分析 | Gluon介面分散式訓練流程

阿新 • • 發佈：2020-09-21

既然我們已經知道kvstore負責分散式訓練過程中引數的同步，那麼它究竟是如何應用在訓練中的呢？下面我們將從Gluon.Trainer這個介面入手，逐步分析分散式訓練的梯度交換以及引數同步過程。下面這段程式碼摘自python/mxnet/gluno/trainer.py檔案，相較於原始碼刪除了一些多餘的資訊（如某些判斷、註釋等），以便讓我們更好地專注於通訊過程。

程式碼中的step函式是進行梯度交換以及引數更新的主體，它首先呼叫_init_kvstore去初始化kvstore，然後呼叫_allreduce_grads進行梯度傳輸，最後呼叫_update實現引數更新。

class Trainer(object):
    def step(self, batch_size, ignore_stale_grad=False):
        if not self._kv_initialized:
            self._init_kvstore()
        if self._params_to_init:
            self._init_params()

        self._allreduce_grads()
        self._update(ignore_stale_grad)

首先，_init_kvstore這個函式會通過使用者指定的引數來呼叫model.py中的_create_kvstore來初始化kvstore以及update_kv_store這兩個變數。其中kvstore是KVStore類的一個例項化物件，而update_on_kvstore是一個布林型變數，用來判斷是否在ps端更新引數。換句話說，如果該變數為True，那麼模型引數的更新發生在ps端；否則，模型引數的更新發生在worker端，ps端只做梯度的聚合操作（這種情況下，paramerter server是不是就變成了gradient server？

MXNet原始碼分析 | Gluon介面分散式訓練流程

MXNet原始碼分析 | Gluon介面分散式訓練流程

Alink漫談(十七) ：Word2Vec原始碼分析之迭代訓練

MXNet原始碼分析 | KVStore

MXNet原始碼分析 | KVStore程序間通訊

[原始碼解析] 深度學習分散式訓練框架 horovod (5) --- 融合框架

[原始碼解析] 深度學習分散式訓練框架 horovod (11) --- on spark --- GLOO 方案

pyalgotrade原始碼分析2--PyAlgoTrade回測流程

[原始碼解析] 深度學習分散式訓練框架 horovod (13) --- 彈性訓練之 Driver

[原始碼解析] 深度學習分散式訓練框架 horovod (15) --- 廣播 & 通知

[原始碼解析] 深度學習分散式訓練框架 horovod (17) --- 彈性訓練之容錯

[原始碼解析] 深度學習分散式訓練框架 horovod (20) --- Elastic Training Operator

Day85--drf06--整體流程及原始碼分析、全域性異常處理與介面文件

SpringBoot啟動流程原始碼分析(1)

PHP-Yaf執行流程-原始碼分析

redis分散式鎖原始碼分析

openstack cinder-backup流程與原始碼分析

VMM外掛和OpenStack nova整合（華三CAS外掛處理虛擬化流程及原始碼分析）

通過原始碼分析Mybatis的功能流程詳解

List介面下重要集合原始碼分析

【分散式】Zookeeper原始碼分析：Jute序列化

MXNet原始碼分析 | Gluon介面分散式訓練流程

相關推薦