tf.clip_by_global_norm理解
阿新 • • 發佈:2019-02-01
Gradient Clipping的引入是為了處理gradient explosion或者gradients vanishing的問題。當在一次迭代中權重的更新過於迅猛的話,很容易導致loss divergence。Gradient Clipping的直觀作用就是讓權重的更新限制在一個合適的範圍。
具體的細節是
1.在solver中先設定一個clip_gradient
2.在前向傳播與反向傳播之後,我們會得到每個權重的梯度diff
,這時不像通常那樣直接使用這些梯度進行權重更新,而是先求所有權重梯度的平方和sumsq_diff
,如果sumsq_diff
> clip_gradient
scale_factor
= clip_gradient
/ sumsq_diff
。這個scale_factor
在(0,1)之間。如果權重梯度的平方和sumsq_diff
越大,那縮放因子將越小。 3.最後將所有的權重梯度乘以這個縮放因子,這時得到的梯度才是最後的梯度資訊。
這樣就保證了在一次迭代更新中,所有權重的梯度的平方和在一個設定範圍以內,這個範圍就是clip_gradient.
tf.clip_by_global_norm
tf.clip_by_global_norm(t_list, clip_norm, use_norm=None, name=None)
通過權重梯度的總和的比率來擷取多個張量的值。
t_list
clip_norm
是擷取的比率, 這個函式返回擷取過的梯度張量和一個所有張量的全域性範數。
t_list[i]
的更新公式如下:
t_list[i] * clip_norm / max(global_norm, clip_norm)
其中global_norm = sqrt(sum([l2norm(t)**2 for t in t_list]))
global_norm
是所有梯度的平方和,如果 clip_norm > global_norm
,就不進行擷取。
但是這個函式的速度比clip_by_norm()
要慢,因為在擷取之前所有的引數都要準備好。其他實現的函式還有 這些