1. 程式人生 > 其它 >linux系統下訓練神經網路無響應中斷辦法

linux系統下訓練神經網路無響應中斷辦法

技術標籤:linux神經網路深度學習linux

在程式碼有bug,或者計算量實在過大的情況下,經常出現網路執行後無反應的情況。目前嘗試過兩種方法:

一 kill掉程序

1.通過 top 命令檢視當前程序,找到那個佔用cpu最大的,記住其PID
2.輸入退出檢視
3.出入命令 kill PID,關閉相應程序。
注:
可嘗試 kill -9 PID,進行更強的關閉,或者用killall name,關閉一族,這個我怕關錯沒用過。
在輸入kill命令顯示無法進行此操作時,可以嘗試 sudo kill命令。

二 irq中斷程序錯誤解決方法

今日見一情況,sudo kill 也kill不掉,經觀察,發現問題程序特點為CPU佔用率100%,記憶體0,使用者為根目錄,命令為:

irq/128-nvidia

經查詢,ubuntu16.04 系統呼叫 gtx1080 顯示卡進行深度學習訓練的過程中,每當程式意外終止,或者手動停止後,總會出現 一個程序:irq/132-nvidia 或者 irq/127-nvidia,此程序無法使用kill命令中斷,在此輸入以下命令:

sudo su
echo s > /proc/sysrq-trigger 
echo u > /proc/sysrq-trigger 
echo b > /proc/sysrq-trigger

之後重新連線,輸入top命令,可見該程序已消失。