1. 程式人生 > >Neural Networks and Deep Learning 學習筆記(五)

Neural Networks and Deep Learning 學習筆記(五)

1. 如何理解梯度下降最後變成了 wkwk=wkηjCXjwk

每次都要遞迴相減一個,不如直接把一小撮Cxj算出來再直接相減。由於概率論,這一小撮隨機的Cxj可以基本代表所有的,然後再選一小撮,這樣遞迴,效能就能提高不少了。

2. 為什麼可以用σ(wa+b)來代表11+exp(jwjxjb)?

首先可以理解為σ(x)=11+exp(x)這樣我們就只需考慮為什麼wa+b可以代替jwjxjb

我們先看jwjxjb。這裡x為上個神經元的輸出值,也就是這個神經元的輸入值,w為與輸入值相對的權重。我們把輸入到一個神經元中的所有輸入值與權重的乘積相加,之後再減去偏移量,實際上就是這個神經元的輸出值。

wa+b中,wjk為當前計算層的第j個與上一層的第k個間的權重,為矩陣w11w21w31w41w51w12w22w32w42w52w13w23w33w43w53ak為計算層的上一層的矩陣(因為這一層每個神經元必然都會連線到上次層的每個神經元,所以上一層有k個)。為矩陣a1a2a3。這個例子中計算層有5個神經元,上一層有3個神經元。wa得到w11a1+w12a2+w13a3w21a1+w22a2+w23a3w31a1+w32a2+w33a3w41a1+w42a2+w43a3