linux系統下訓練神經網路無響應中斷辦法
阿新 • • 發佈:2021-02-01
在程式碼有bug,或者計算量實在過大的情況下,經常出現網路執行後無反應的情況。目前嘗試過兩種方法:
一 kill掉程序
1.通過 top 命令檢視當前程序,找到那個佔用cpu最大的,記住其PID
2.輸入退出檢視
3.出入命令 kill PID,關閉相應程序。
注:
可嘗試 kill -9 PID,進行更強的關閉,或者用killall name,關閉一族,這個我怕關錯沒用過。
在輸入kill命令顯示無法進行此操作時,可以嘗試 sudo kill命令。
二 irq中斷程序錯誤解決方法
今日見一情況,sudo kill 也kill不掉,經觀察,發現問題程序特點為CPU佔用率100%,記憶體0,使用者為根目錄,命令為:
irq/128-nvidia
經查詢,ubuntu16.04 系統呼叫 gtx1080 顯示卡進行深度學習訓練的過程中,每當程式意外終止,或者手動停止後,總會出現 一個程序:irq/132-nvidia 或者 irq/127-nvidia,此程序無法使用kill命令中斷,在此輸入以下命令:
sudo su
echo s > /proc/sysrq-trigger
echo u > /proc/sysrq-trigger
echo b > /proc/sysrq-trigger
之後重新連線,輸入top命令,可見該程序已消失。