tensorflow自定義啟用函式例項
阿新 • • 發佈:2020-02-05
前言:因為研究工作的需要,要更改啟用函式以適應自己的網路模型,但是單純的函式替換會訓練導致不能收斂。這裡還有些不清楚為什麼,希望有人可以給出解釋。查了一些部落格,發現瞭解決之道。下面將解決過程貼出來供大家指正。
1.背景
之前聽某位老師提到說tensorflow可以在不給梯度函式的基礎上做梯度下降,所以嘗試了替換。我的例子時將ReLU改為平方。即原來的啟用函式是 現在換成
單純替換啟用函式並不能較好的效果,在我的實驗中,迭代到一定批次,準確率就會下降,最終降為10%左右保持穩定。而事實上,這中間最好的訓練精度為92%。資源有限,問了對神經網路頗有研究的同學,說是啟用函式的問題,然而某篇很厲害的論文中提到其精度在99%,著實有意思。之後開始研究自己些梯度函式以完成訓練。
2.大概流程
首先要確定梯度函式,之後將其處理為tf能接受的型別。
2.1定義自己的啟用函式
def square(x): return pow(x,2)
2.2 定義該啟用函式的一次梯度函式
def square_grad(x): return 2 * x
2.3 讓numpy陣列每一個元素都能應用該函式(全域性)
square_np = np.vectorize(square) square_grad_np = np.vectorize(square_grad)
2.4 轉為tf可用的32位float型,numpy預設是64位(全域性)
square_np_32 = lambda x: square_np(x).astype(np.float32) square_grad_np_32 = lambda x: square_grad_np(x).astype(np.float32)
2.5 定義tf版的梯度函式
def square_grad_tf(x,name=None): with ops.name_scope(name,"square_grad_tf",[x]) as name: y = tf.py_func(square_grad_np_32,[x],[tf.float32],name=name,stateful=False) return y[0]
2.6 定義函式
def my_py_func(func,inp,Tout,stateful=False,name=None,my_grad_func=None): # need to generate a unique name to avoid duplicates: random_name = "PyFuncGrad" + str(np.random.randint(0,1E+8)) tf.RegisterGradient(random_name)(my_grad_func) g = tf.get_default_graph() with g.gradient_override_map({"PyFunc": random_name,"PyFuncStateless": random_name}): return tf.py_func(func,stateful=stateful,name=name)
2.7 定義梯度,該函式依靠上一個函式my_py_func計算並傳播
def _square_grad(op,pred_grad): x = op.inputs[0] cur_grad = square_grad(x) next_grad = pred_grad * cur_grad return next_grad
2.8 定義tf版的square函式
def square_tf(x,"square_tf",[x]) as name: y = my_py_func(square_np_32,my_grad_func=_square_grad) return y[0]
3.使用
跟用其他啟用函式一樣,直接用就行了。input_data:輸入資料。
h = square_tf(input_data)
over. 學藝不精,多多指教!
以上這篇tensorflow自定義啟用函式例項就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支援我們。