使用mmdetection訓練yolox出現卡著不動的問題
阿新 • • 發佈:2022-05-25
2022年05月24日14:04:43
具體報錯資訊由於在內網無法呈現到此,但是我在mmdet的github官方專案中找到了該問題:https://github.com/open-mmlab/mmdetection/issues/7298
截止到目前,該問題被定義為yolox的bug,目前很多評論多以訓練圖片對應的xml標註檔案中不存在標註框,但是我對自己的資料進行了檢查,不存在該描述問題,所以也不是空標註問題導致。
下面我仔細的描述一下我的問題:
- 2080ti單卡訓練,會報出錯誤提示:
RuntimeError: Expected to have finished reduction in the prior iteration before starting a new one. This error indicates that your module has parameters that were not used in producing loss. You can enable unused parameter detection by passing the keyword argument `find_unused_parameters=True` to `torch.nn.parallel.DistributedDataParallel`, and by making sure all `forward` function outputs participate in calculating loss. If you already have done the above, then the distributed data parallel module wasn't able to locate the output tensors in the return value of your module's `forward` function. Please include the loss function and the structure of the return value of `forward` of your module when reporting this issue (e.g. list, dict, iterable). Parameter indices which did not receive grad for rank 0: 228 229 230 231 232 233
- 2080ti多卡訓練,卡數大於等於2,沒有報錯提示,但是終端頁面會卡在某個iters就不動了,但是觀察顯示卡發現利用率仍然在浮動,說明gpu內部還在計算,可能陷入計算死迴圈,此時只能手動停止。
截止到目前依舊沒有找到有效的解決辦法,由於之前多次使用yolox完成訓練過且沒有出現上述問題,因此我的注意力還是關注此次訓練資料。
此次訓練的資料是使用檢測類別png圖片+貼圖的方式生成的訓練樣本。
目前檢查資料做了如下操作:檢查了每張圖片是否都有標註,檢查了標註的框是否都在影象尺寸之內