FPGA機器學習之stanford機器學習第四堂
這個是第一篇講義的20頁。
Newton’s method
假定
我們對第二章圖的紅點,進行線性逼近。所以,就是他的切線。這個切線的延長線,與水平0的水平線一定相交到一點。
看第三張圖的左側紅點,下方的點就是第一條切線與0水平線的交點。然後在做切線。第二條切線又會和0點有一個交點。就這樣一直迭代下去。
視訊在8:00位置。有點不好解釋明白了。
對於不同的初始值,這個演算法不會有任何印象。最終都會收斂的。 而且牛頓演算法收斂的速度會很快。
上面講的就是一直只有一排資料的特例情況。 下面要講的就是一般情況。
H 是一個n*n的矩陣 表示的是一個二階導數。它具體的由來我還不是很明白。
牛頓演算法比批梯度演算法,就差在H這裡。
Generalized Linear Models
我們先把函式寫成這個形式,具體每個變數的意思。不說了。22分鐘,自己看吧。
無論是高斯分佈,還是Bernoulli分佈都是指數函式的特例。也就是說,只要選取不同的a,b,t 就會形成高斯和Bernoulli分佈。
為什麼說,Bernoulli分佈是指數分佈族函式的特例呢??下面做出計算。
寫成這樣的形式,就大概能看出來了。
經常情況下會有T(y)=y。
得到一組t,a,b。 η = log(φ/(1 − φ)).
現在是把高斯分佈寫成這個指數分佈族的形式
預設計算過程。。。。。。。。。。。。。。。。
Constructing GLMs
用這種指數分佈族進行建模,需要遵循以下幾個條件。
1,y | x; θ ∼ ExponentialFamily(η) 函式遵循指數分佈族。而且以η為變數。
2,給一個x,我們的目標是預測T(y) 。假定演算法輸出是 h(x) = E[y|x].
3,是一個輸出決策。一個η為變數和x之間的關係。η = θT x.
Softmax Regression
其實很多的情況下,並不是只有2種輸出值。有時候會多,比如說,有私人郵件,工作郵件和垃圾郵件,這樣就要分很多類了,我們用一個多項式來進行分類。
我們假設這裡有k類,y ∈{1 2, . . . , k}. 現在我們給這個多項式引數化 k 引數 φ1, . . . , φk
這個時候,T是這樣的,以前都是T(y)=y,現在不是了。
1{True} = 1, 1{False} = 0 這裡的1,表示指示函式。
T(y) = 1{y = i}. 這麼看,y=1的時候,和上面的就一樣了。
p(y; φ) =b(y) exp(η T(y) − a(η))。
p(y; φ) =exp((T(y))1 log(φ1/φk) + (T(y))2 log(φ2/φk) +。。。。+ (T(y))k−1 log(φk−1/φk) + log(φk)) 這裡的1,下標。好像如果不看講義,這個公式不怎麼好看。
往下求解。
最後面這個式子怎麼來的,和視訊上的求解。不知道怎麼回事。能力有限呀。
我能力有限,但是我努力的學習,還是有很多的細節不懂。看來需要看其他的材料,可能會了解的更深一點吧。