Stanford機器學習-Neural Networks Representation

阿新 • • 發佈：2019-01-10

一、Non-linearhypotheses

在一般分類問題中，我們可以使用一條直線或是曲線，將其進行一個正確的分類；在如下類似的多分類問題中，我們找到一條曲線進行合理的劃分。
在這裡插入圖片描述

在特徵較少時我們使用Logistic迴歸取得很好的效果，此時表示式中只有x1和x2兩個變數的組合。但如果我們的特徵很多時，比如有100個特徵，比如在房價預測問題中，特徵的數目就會有很多，我們如果仍然使用前面的方法去做的話，特徵的組合的陣列會達到一個驚人的數目，對於當前使用的演算法來說，需要計算的時間太長，長到使用者無法接受。
在這裡插入圖片描述

在實際的應用問題中，比如我們需要來識別上圖是不是一輛汽車，對於人來說，我們可以一眼就給出答案，但是在計算機看來是一個一個的灰度值，假設畫素是50*50，那麼特徵就會達到2500個，使用前面的演算法就行特徵的組合，特徵組合結果將會有3百萬個之多，如果是RGB，那麼結果將會更多，顯然不適用前面的迴歸模型。

二、Neurons and the brain

在這裡插入圖片描述如果想直到更多關於神經網路的歷史發展，可以通過相關的書籍資料得到。

之前，科學家通過一系列的“神經重連實驗”，瞭解到通過將處理某個功能的大腦皮層與其他功能的神經相連，通過一定量的學習，它就會有新的功能。那我們能不能寫一個東西來模擬實現大腦的這種學習功能呢，這時神經網路模型便應時而出。

三、Model Representation

那麼我們具體怎麼實現這個模型呢？在此之前我們就需要了解大腦是如何實現這一系列的工作的。

在這裡插入圖片描述

大腦中神經元如圖所示，它包括神經核、許多的樹突和一個軸突，這裡我們將其分別成為處理單元、許多輸入和一個輸出。神經網路就是由大量的神經元所組成的一個網路，他們通過電脈衝相互交流，這裡是一條連線到輸入神經，或者連線到另一個神經元樹突的神經，接下來這個神經元接收到這條訊息，做計算，然後將結果傳給其他的神經元，這就是工作的一般方式。

在這裡插入圖片描述

神經網路就是建立在很多的神經元上的，每一個神經元（啟用單元）就是一個學習模型，它接受一些特徵的輸入，根據自身模型的一個計算給出相應的輸出值。如上圖所示，輸入的x1、x2、x3經過h（x）的計算從而得到一個輸出值，通常為了便於向量化，我們會增加一個x0，對應的引數（這裡稱為權重）也要改變。

由此我們就可以得到一個如下所示的簡單的三層神經網路的模型：
在這裡插入圖片描述

圖中的x1、x2、x3是輸入單元，我們可以將原始的資料給它，a1、a2、a3是中間單元，處理輸入的資料將結果傳給下一層。如圖所示的模型中，包括三層：輸入層（input layer）、隱藏層（hidden layer）和輸出層（output layer），此外為了向量化我們加入了偏置單位（bias unit）。其中的字母標記解釋如下：
在這裡插入圖片描述