1. 程式人生 > >FPGA機器學習之stanford機器學習第四堂

FPGA機器學習之stanford機器學習第四堂

                這個是第一篇講義的20頁。   

                                                                                                        Newton’s method                                                                           

               假定

我們對第二章圖的紅點,進行線性逼近。所以,就是他的切線。這個切線的延長線,與水平0的水平線一定相交到一點。

看第三張圖的左側紅點,下方的點就是第一條切線與0水平線的交點。然後在做切線。第二條切線又會和0點有一個交點。就這樣一直迭代下去。

視訊在8:00位置。有點不好解釋明白了。

對於不同的初始值,這個演算法不會有任何印象。最終都會收斂的。                                      而且牛頓演算法收斂的速度會很快。

上面講的就是一直只有一排資料的特例情況。            下面要講的就是一般情況。

                H  是一個n*n的矩陣                    表示的是一個二階導數。它具體的由來我還不是很明白。

牛頓演算法比批梯度演算法,就差在H這裡。

                                                                                               Generalized Linear Models

我們先把函式寫成這個形式,具體每個變數的意思。不說了。22分鐘,自己看吧。

無論是高斯分佈,還是Bernoulli分佈都是指數函式的特例。也就是說,只要選取不同的a,b,t  就會形成高斯和Bernoulli分佈。

為什麼說,Bernoulli分佈是指數分佈族函式的特例呢??下面做出計算。

寫成這樣的形式,就大概能看出來了。

經常情況下會有T(y)=y。

 得到一組t,a,b。                                                     η = log(φ/(1 − φ)).

 現在是把高斯分佈寫成這個指數分佈族的形式

預設計算過程。。。。。。。。。。。。。。。。

                                                                                                         Constructing GLMs

用這種指數分佈族進行建模,需要遵循以下幾個條件。

1,y | x; θ ∼ ExponentialFamily(η)     函式遵循指數分佈族。而且以η為變數

 2,給一個x,我們的目標是預測T(y) 。假定演算法輸出是       h(x) = E[y|x].        

3,是一個輸出決策。一個η為變數和x之間的關係。η = θT x.

                                                   Softmax Regression

其實很多的情況下,並不是只有2種輸出值。有時候會多,比如說,有私人郵件,工作郵件和垃圾郵件,這樣就要分很多類了,我們用一個多項式來進行分類。

 我們假設這裡有k類,y ∈{1 2, . . . , k}. 現在我們給這個多項式引數化             k 引數 φ1, . . . , φk

這個時候,T是這樣的,以前都是T(y)=y,現在不是了。


1{True} = 1, 1{False} = 0      這裡的1,表示指示函式

T(y) = 1{y = i}.   這麼看,y=1的時候,和上面的就一樣了。

p(y; φ) =b(y) exp(η T(y) − a(η))

p(y; φ) =exp((T(y))1 log(φ1/φk) + (T(y))2 log(φ2/φk) +。。。。+ (T(y))k−1 log(φk−1/φk) + log(φk))    這裡的1,下標。好像如果不看講義,這個公式不怎麼好看。

 往下求解。


最後面這個式子怎麼來的,和視訊上的求解。不知道怎麼回事。能力有限呀。

微笑我能力有限,但是我努力的學習,還是有很多的細節不懂。看來需要看其他的材料,可能會了解的更深一點吧。