機器學習筆記——神經網路（neural networks）

阿新 • • 發佈：2019-01-01

神經網路

非線性假設

對於非線性假設而言，當特徵足夠多的時候，如果我們仍採用多項式進行線性擬合，那麼我們將獲得數量非常龐大的高次項，這使得計算變得非常複雜。出於這個原因，我們受到人腦的啟發，提出了神經網路

我們可以將logistic單元表示成神經元的形式，中間的神經元代表假設函式h，左側是輸入，右側是輸出

如果我們的輸入輸出之間經過了多層計算，這樣一種結構我們就叫做神經網路

前向傳播

為了計算最終的輸出，我們可以用前向傳播的方法，顧名思義就是由輸入一層層向右迭代計算輸出

我們把輸入特徵的層叫做輸入層，輸出結果的層叫輸出層，而中間的層我們統一稱為隱藏層

多元分類

對於分類問題，如果輸出是多元的，那我們需要構建一個向量來表示輸出屬於哪一類

反向傳播

代價函式

我們已經講了神經網路的大致結構，那麼它的代價函式是什麼呢？我們以多元分類問題舉例，實際上神經網路的代價函式就是把每一個輸出的代價函式求和就得到了最終的代價函式（其中還包括正則化的項）

、

那麼有了代價函式，我們怎麼求它的最小值呢？我們知道要計算最小值，需要計算代價函式以及代價函式對各個係數的偏導，那麼這個計算的過程就叫做反向傳播。我們可以由如下過程求出偏導數。我們可以看出我們先定義了輸出層的誤差δ，也就是最後的輸出結果與實際值（1或0）的差值，然後再根據一系列公式（在此就不再推到了）計算出代價函式對每個引數的偏導數

以上是一組資料的情況，那麼對於m組訓練資料，我們可以採用如下的演算法計算偏導數

讓我們再來回顧一下上面的過程：首先我們根據一組訓練資料從左到右正向計算出輸出的值

然後我們再根據輸出結果與偏導數計算公式從右到左反向一級級計算出δ，最後計算出偏導數

在得到了代價函式與代價函式對引數的偏導數之後我們就可以利用一些整合的來計算出代價函式的最小值了。需要注意的是我們在表示係數的時候我們一般將係數寫成矩陣的形式（每一層有一個係數矩陣），但是在matlab中呼叫這些高階函式（例如fminunc）需要我們將這些矩陣展開成向量的形式

梯度檢測

由於反向傳播演算法比較複雜，很多時候它很多時候容易出問題。正是這樣，我們需要梯度檢測來證明我們的結果是否正確。我們會採用導數逼近的形式來觀察我們的梯度求得是否正確

以下是高維的情況

由於梯度檢測的過程遠比神經網路的計算過程計算量大，因此我們一般只進行一次梯度檢測，之後將其關閉，再來執行反向傳播的程式碼

還需要注意的是我們在初始化引數的時候不能像logistic迴歸一樣簡單地將每個引數置0，因為這會導致對稱性權重（symmetry weight）問題，因此我們需要隨機化初始引數來進行初始化

總結

下面讓我們來對訓練神經網路的過程做一個總結。首先我們需要選擇一個網路結構，一般來說我們選擇一層隱藏層就行

之後我們按以下幾個步驟對神經網路進行訓練

很多時候代價函式是非凸函式，演算法會收斂到區域性最小值，但是我們在實操的時候可以知道就算收斂到區域性最小值我們仍能取得很好的效果

機器學習筆記——神經網路（neural networks）

神經網路非線性假設對於非線性假設而言，當特徵足夠多的時候，如果我們仍採用多項式進行線性擬合，那麼我們將獲得數量非常龐大的高次項，這使得計算變得非常複雜。出於這個原因，我們受到人腦的啟發，提出了神經網路我們可以將logistic單元表示成神經元的形式，中間的神經元代表假設函式h

系統學習機器學習之神經網路（十一） --TDNN

近來在瞭解卷積神經網路（CNN），後來查到CNN是受語音訊號處理中時延神經網路（TDNN）影響而發明的。本篇的大部分內容都來自關於TDNN原始文獻【1】的理解和整理。該文寫與1989年，在識別"B", "D", "G"三個濁音中得到98.5%的準確率，高於HMM的93.7%。是CNN的先驅。 &

系統學習機器學習之神經網路（十二） --人工神經網路總結

本來這篇還缺個RBM，但RBM在DBN中使用，暫時放在深度學習那裡。這裡看到一篇非常好的總結，儲存下來。轉自：http://blog.csdn.net/fengbingchun/article/details/50274471 本文主要對人工神經網路基礎進行了描述，主要包

吳恩達深度學習筆記（2）-什麼是神經網路（Neural Network）

什麼是神經網路？(What is a Neural Network) 我們常常用深度學習這個術語來指訓練神經網路的過程。有時它指的是特別大規模的神經網路訓練。那麼神經網路究竟是什麼呢？在這個視訊中，會講解一些直觀的基礎知識。首先，讓我們從一個房價預測的例子開

吳恩達機器學習筆記-神經網路的代價函式和反向傳播演算法

代價函式在神經網路中，我們需要定義一些新的引數來表示代價函式。 L = total number of layers in the network $s_l$ = number of units (not counting bias unit) in layer

【機器學習】神經網路（一）——多類分類問題

一、問題引入早在監督學習中我們已經使用Logistic迴歸很好地解決二類分類問題。但現實生活中，更多的是多類分類問題（比如識別10個手寫數字）。本文引入神經網路模型解決多類分類問題。二、神經網路模型介紹神經網路模型是一個非常強大的模型，起源於嘗試讓機

機器學習之神經網路（機器學習技法）

神經網路的動機感知器的線性融合前面我們知道了將簡單的模型進行融合之後會得到一個非常強大的模型。我們試著將感知器（簡單的二元分類模型）做線性融合之後得到下圖：其中每一個節點都是一個感知器，其第一層的感知器都是由前一層X向量與W權重的線性組合，而第二層的感知器又是由前一層的得到的

機器學習與神經網路（四）：BP神經網路的介紹和Python程式碼實現

前言：本篇博文主要介紹BP神經網路的相關知識，採用理論+程式碼實踐的方式，進行BP神經網路的學習。本文首先介紹BP神經網路的模型，然後介紹BP學習演算法，推導相關的數學公式，最後通過Python程式碼實現BP演算法，從而給讀者一個更加直觀的認識。 1.BP網路模型為了將理

機器學習與神經網路（二）：感知器的介紹和Python程式碼實現

前言：本篇博文主要介紹感知器的相關知識，採用理論+程式碼實踐的方式，進行感知器的學習。本文首先介紹感知器的模型，然後介紹感知器學習規則（Perceptron學習演算法），最後通過Python程式碼實現單層感知器，從而給讀者一個更加直觀的認識。 1.單層感知器模型單層感知器

系統學習機器學習之神經網路（四） --SOM

轉自:http://blog.csdn.net/xbinworld/article/details/50818803，其實內容更多的是百度文庫裡叫《SOM自組織特徵對映神經網路》這篇文章上的，博主增加了一些理解。本文詳細介紹一下自組織神經網路概念和原理，並重點介紹一下自組

機器學習筆記——線性迴歸（Linear Regression）

線性迴歸演算法 1 簡單線性迴歸（Simple Liner Regression）解決迴歸問題思想簡答，容易實現許多強大的非線性模型的基礎結果具有很好的可解釋性蘊含機器學習中的很多重要思想 1.1 什麼是線性迴歸演算法？

機器學習筆記——梯度下降（Gradient Descent）

梯度下降演算法（Gradient Descent）在所有的機器學習演算法中，並不是每一個演算法都能像之前的線性迴歸演算法一樣直接通過數學推導就可以得到一個具體的計算公式，而再更多的時候我們是通過基於搜尋的方式來求得最優解的，這也是梯度下降法所存在的意義。不是一個機器學習演

機器學習筆記——logistic迴歸（logistic regression）

logistic迴歸 logistic迴歸實際上並不是一種迴歸演算法，而是一種分類演算法，意思就是輸出值是離散值（01或者更多類），而它叫這個名字完全是歷史原因。我們可以從下圖看出對於分類問題，如果我們採用傳統的迴歸演算法並不能獲得很好的效果假設稱述由於輸出的值是0和1，因此我

機器學習筆記——梯度下降（Gradient D）

梯度下降演算法（Gradient Descent）在所有的機器學習演算法中，並不是每一個演算法都能像之前的線性迴歸演算法一樣直接通過數學推導就可以得到一個具體的計算公式，而再更多的時候我們是通過基於搜尋的方式來求得最優解的，這也是梯度下降法所存在的意義。不

機器學習筆記——推薦系統（recommender system）

推薦系統我們在平時最常見的就是某個網站給你推薦廣告，豆瓣給你推薦電影，網易雲給你推薦你喜歡的歌，這種系統我們統一稱作推薦系統基於內容的推薦我們舉一個電影打分的例子我們可以為某一部電影選定特徵，不同人對不同的特徵有不同的偏愛特性，藉此我們可以預測某個人對某部特定電影的打分

機器學習筆記——異常檢測（anomaly detection）

異常檢測當我們需要讓一個系統從許多未標註的資料中學習到某些正常的特徵，從而能夠診斷出非正常的資料，我們把這個過程叫做異常檢測我們要做的就是對於給定的一組特徵值，我們輸出一個概率，如果這個概率值小於某個臨界值，代表資料異常演算法我們可以採用高斯函式來擬合這個概率值，

機器學習筆記——降維（dimensionality reduction）

降維目的我們對資料進行降維的目的有兩個：一個是資料壓縮，對於資料壓縮我們可以大大地節省儲存空間第二就是使得資料可以視覺化，我們將多維資料壓縮成二維可以供我們更好地觀察資料的特徵主成分分析（PAC）主成分分析法可以將n維的資料降為k維，實際上我們是選取了一個k

一、降維——機器學習筆記——降維（特徵提取）

目錄 2、示例一、為什麼要降維維數災難：在給定精度下，準確地對某些變數的函式進行估計，所需樣本量會隨著樣本維數的增加而呈指數形式增長。降維的意義：克服維數災難，獲取本質特徵，節省儲存空間，去除無用噪聲，實現資料視覺化

《機器學習》周志華學習筆記第五章神經網路（課後習題） python實現

1.神經元模型 2.感知機與多層網路 3.誤差逆傳播演算法 (A)BP演算法：最小化訓練集D上的累積誤差標準BP演算法：更新規則基於單個Ek推導而得兩種策略防止過擬合：（1）早停（通過驗證集來判斷，訓練集誤差降低，驗證集誤差升高）（2）正則化：在誤差目標函式中引入描述網

Coursera deeplearning.ai 深度學習筆記1-4-Deep Neural Networks-深度神經網路原理推導與程式碼實現

在掌握了淺層神經網路演算法後，對深度神經網路進行學習。 1. 原理推導 1.1 深度神經網路表示定義：L表示神經網路總層數，上標[l]代表第l層網路，n[l]代表第l層的節點數，a[l]