【解決方案】Pytorch訓練中止，報錯Segmentation fault(core dumped)，此後多卡利用率很低

阿新 • • 發佈：2021-01-02

問題描述

1.我使用三塊卡，分別是，1，2，5號，進行三個對比實驗。昨天還是可以執行比較快的，今早發現程式中止，報錯:Segmentation fault(core dumped) 我按照網上的解決方法，將stack size設為unlimited
2.我後來重新執行，發現三塊卡的程式都訓練很慢，而且以每0.5秒檢視利用率發現雖然三塊記憶體都佔用較多，可利用率不是同時都高，甚至大多數時間都是為零，如三張圖所示。

解決方案

針對問題1，我搜索Segmentation fault(core dumped)錯誤，網上都說是記憶體操作錯誤，指標越界之類的。因此我採用了一篇博主的方法，將stack size設為unlimited。

a.檢視stack size

ulimit -a

b. 將stack size設為無限

ulimit -s unlimited

我以為問題解決了，

雖然不再報段錯誤，但是出現了新的問題，即問題2.。這可怎麼辦，我可是要進行Ablation Study的，有多卡卻不能同時跑提痛苦了。我請教了一個pytorch學習群的大佬，他們讓我檢查cpu利用率，但是發現利用率都挺高，如圖4。還有同學讓我把DataLoader線性設為cpu核心儲存數目，即20。但是我認為這解決不了，以你為之前我都是用8的，沒有問題，三塊卡都有百分之八九十利用率。後來設為16，一樣不起作用，因此設為20不會有很大作用。無奈之下，實行終極絕招：重啟伺服器！

後來，GPU利用率竟然三塊都有百分之八九十。我不知道原因，不知道單純是重啟，還是此前出現的段錯誤，我將stack size設為unlimited後需要重啟。

【解決方案】Pytorch訓練中止，報錯Segmentation fault(core dumped)，此後多卡利用率很低

問題描述

解決方案

【解決方案】Pytorch訓練中止，報錯Segmentation fault(core dumped)，此後多卡利用率很低

【解決方案】VSCode remote ssh 連線遠端機器，報錯：remote host key has changed port forwarding is disabled

【解決方案】商業綜合體EasyCVR視訊監控搭建，構建多功能綜合安防解決方案

【解決方案】快遞代收點部署視訊監控，EasyCVR視訊融合平臺來助力

【解決方案】小區監控要升級改造，檢測電瓶車入電梯

【解決方案】EasyCVR打造明廚亮灶監管平臺，保護舌尖上的安全

轉【解決方案】C#中使用Newtonsoft建立JSON字串

【解決方案】根據當前系統時鐘或簽名檔案中的時間戳驗證時要求的證書不在有效期內

Mac下 Parallesls 安裝Ubuntu後安裝vmtools失敗【解決方案】

【解決方案】kafka: client has run out of available brokers to talk to (Is your cluster reachable?)

【解決方案】助力電子商務平臺建設TSINGSEE青犀視訊實現AI全流程監管

【解決方案】EasyCVR視訊智慧分析共享平臺助力電石智慧視訊監控應用方案

【解決方案】貨運汽車如何保證安全？EasyCVR搭建網際網路貨運監控平臺方案

【解決方案】EasyCVR安防視訊雲服務構築智慧水利水務的雲底座

【解決方案】Pyinstaller打包exe策略（簡單實用）

【解決方案】智慧物聯網技術為養老院安全消防管理提供新出路

Ubuntu安裝VMware tools時Segmentation fault (core dumped)問題的解決

Unity 整合華為遊戲 android sdk，報錯“get client/appid failed，FileNotFoundException：agcconnect-services.json”

Java 介面的預設方法【擴充套件靜態方法，介面預設方法多繼承的解決方案】

【完美終極解決方案】如何刪除 Windows 此電腦-＞裝置與驅動器中多餘的圖示或空白圖示，刪除無效失敗怎麼辦？刪除此電腦6個/7個資料夾

【解決方案】Pytorch訓練中止，報錯Segmentation fault(core dumped)，此後多卡利用率很低

問題描述

解決方案

相關推薦