1. 程式人生 > >卷積神經網路--LeNet5模型

卷積神經網路--LeNet5模型

1 簡介

LeNet-5模型是1998年Yann LeCun教授在論文Gradient-based learning applied to document recognition中提出的,是第一個成功應用於數字識別問題的卷積神經網路,在MNIST資料集上,LeNet模型識別的正確率高達99.2%。LeNet-5結構如圖1.1所示。 LeNet

圖1.1 LeNet-5結構圖

由圖1.1可知,LeNet-5模型有輸入層(InputLayer)、卷積層(Convolution Layer)、取樣層(Subsampling Layer)、卷積層(Convolution Layer)、取樣層(Subsampling Layer)、全連線層(Full connection Layer)、全連線層(Full connection Layer)、高斯連線層(Gaussian connections Layer)。

  • 深度:矩陣個數;
  • 引數數量:權重和偏置數量總和,根據卷積核計算。

2 結構

  • 輸入層 輸入層的輸入是原始影象的畫素(32X32),黑白圖片,深度為1。
  • 卷積層 卷積層過濾器/卷積核尺寸為5X5,深度為6,不使用全0填充,步長為1。該層輸出為28X28X6,尺寸為28X28(32-5+1),深度為6,引數數量為156(5X5X1X6+6,其中5X5為卷積核尺寸,1為黑白影象深度,6為卷積核深度,6為偏置項引數),連線數量為122304(28X28X6X(5X5+1))。 卷積層引數表2.1。
引數 描述
尺寸 28X28
深度 6
引數數量 156
連線數量 122304
  • 取樣層 該層的輸入是卷積層的輸出,即28X28X6的節點矩陣,深度為6,尺寸為28X28。本層過濾器/卷積核尺寸為2X2,長和寬的步長為2,則輸出矩陣為14X14X6。
引數 描述
尺寸 14X14
深度 6
  • 卷積層 該層輸入為取樣層的輸出,即14X14X6的節點矩陣,深度為6,尺寸為14X14。本層過濾器/卷積核尺寸為5X5,深度為16,不使用全0補充,步長為1,則該層輸出為10X10X16,尺寸為10X10,深度為16,引數為2416(5X5X6X16+16,其中5X5為卷積核尺寸,6為輸入層深度,16為卷積核深度,16為偏置項引數),連線數量為41600(10X10X16X(5X5+1))
引數 描述
尺寸 10X10
深度 16
引數數量 2416
連線數量 41600
  • 取樣層

該層輸入為卷積層輸出,即10X10X16的節點矩陣,尺寸為10X10,深度為16,採用卷積核/過濾器尺寸為2X2,長寬步長為2,該層的輸出為5X5X16。

引數 描述
尺寸 5X5
深度 16
  • 全連線層 該層的輸入為取樣層的輸出,即5X5X16節點矩陣。將該矩陣拉成一個向量,輸出節點為120,引數有48120(5X5X16X120+120)。

  • 全連線層 該層輸入為120個節點,輸出為84個節點。引數為10164(120X84+84)。

  • 高斯連線層 該層輸入為84個節點,輸出為10個節點,引數為850(84X10+10)。

3應用

MNIST資料集處理應用:github

4 總結

  • LeNet-5模型可高效處理手寫字型
  • 對資料量較大的影象資料集,LeNet-5效果一般,如ImageNet影象資料集