從AlexNet到DenseNet，再到SENet，一文看懂影象分類領域的突破性進展

阿新 • • 發佈：2019-02-10

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

本文轉自將門創投（thejiangmen）

來源 | ParallelDots

編譯 | Tom Ren

深度學習模型近年來在影象分類領域的能力得到了指數級的提升，併成為了AI領域最為活躍的研究領域。但其實深度學習的歷史並不長，Yann Lecun在1998年的時候發表了卷積神經網路的前言探索，但是在深度學習真正爆發之前經歷了多年的沉積。

幾年來深度學習的爆發歸功於機器處理能力的大幅提升（GPU），以及海量的資料（Imagenet）和先進的演算法技術。這一次深度學習的革命興起於2012年的AlexNet，這一大規模的深度卷積神經網路贏得了當年ILSVRC的冠軍。（ILSVRC是一個在給定資料級上進行特定視覺識別任務的演算法挑戰賽。）從那時起，CNN家族就拿下了這一比賽，並超過了人類視覺5%~10%的準確率水平。

640?wx_fmt=png

ILSVRC比賽見證了神經網路效能的不斷提升，從2010年接近30%的錯誤率提升到了今年2.251%的錯誤率。

對於人類而言，理解一張圖片的內容很容易，但是對於機器來說卻很困難。因為機器面對的一個由陣列構成的圖片，從一堆數字裡識別出貓的模樣是十分困難的事情。更別提貓還有不同種類、毛色、大小和姿態了。

640?wx_fmt=png 我們看見的 vs 機器看見的世界

深度學習經過了四五年的發展，衍生出了各種各樣不同的架構並取得一系列的突破。我們列舉了這一領域曾經發生的一系列突破性研究，來為大家呈現出深度學習的發展脈絡。最後我們提出了兩個全新的演算法，也許未來會對計算機視覺的研究帶來新的變革。

▌影象分類研究領域的突破性研究論文

AlexNet

在ILSVRC2012中, Alex Krizhevsky, Ilya Sutskever, 和 Geoffrey Hinton 提出了名為AlexNet的深度神經網路，它首次達到了15.4%的錯誤率，比當時的第二名整整低了10%。Alexnet這一令人矚目的成就極大地震動了整個計算機視覺領域，並直接帶了近年來深度學習和卷積網路的爆發性增長。

640?wx_fmt=png

AlexNet在兩個GPU上分別部署的架構圖

這是歷史上第一次模型能在曾經如此困難的ImageNet的資料集上表現如此之好，AlexNet同時也奠定了深度學習里程碑式的基礎。這篇文章也是迄今為止深度學習引用最高的文章之一，約7000次。

ZFNet

Matthew D Zeiler(Clarifai的創始人) 和 Rob Fergus 贏得了ILSVRC 2013的比賽，其準確率超過了AlexNet達到了11.2%的錯誤率。ZFNet在模型中引入了新穎的視覺化技術，給予了研究人員對於中間特徵層以及分類器操作更多的解讀，彌補了AlexNet在這方面的不足。

640?wx_fmt=png

ZFNet網路架構

ZFNet 利用解卷積網路的技術使得檢驗不同特徵啟用及其與輸入空間的關係成為了可能。

VGG Net

來自於牛津大學的Karen Simonyan 和 Andrew Zisserman於2014年創造的VGGnet在2014年ISLVRC上取得了第二名的優秀結果。VGGnet展示了可以在先前網路架構的基礎上通過增加網路層數和深度來提高網路的效能。VGGnet包含16-19層權重網路，比先前的網路架構更深層數更多。

640?wx_fmt=png MVGG Net.的架構

這一架構廣受好評的原因來自於它簡單的結構，更易於理解，但是依舊擁有可以優化的空間。它的特徵圖目前被廣泛應用於遷移學習和其他需要與訓練的網路結構中，例如絕大多數的GANs。

GoogleNet

來自Google的Christian Szegedy等人提出了稱為GoogleNet的22層神經網路贏得了14年ISLVRC的冠軍。這錯誤率只有6.7%的模型奠定了Google在計算機視覺領域的地位。這一模型最引人注目的地方在於模型架構極大的改善了計算機計算資源的利用率，在精心設計的網路下，模型的計算開銷在深度和寬度增加的情況下保持常數。GoogleNet在模型中引入了Inception Module，利用非序列化的並行方式來提高模型的效能。

640?wx_fmt=png

GoogLeNet 的架構和其中的 inception 單元

GoogleNet令人矚目的是其識別準確率已經達到了人類的水平(5%~10%）。GoogleNet第一次引入了CNN模組的非序列化概念，Inception-module提供了一種更具創造性的結構，並能極大提高模型表現和計算效率。

ResNet

微軟的Kaiming He, Xiangyu Zhang, Shaoqing Ren 和 Jian Sun提出了ResNet，這是一個比先前網路都要深的殘差網路學習框架。這一網路的優點是更加容易優化，並能從網路層數的增加帶來顯著的精度提升。

640?wx_fmt=png

ResNet架構中的殘差單元

ResNet以3.57%的表現超過了人類的識別水平，並以152層的網路架構創造了新的模型記錄。

Wide ResNets

Sergey Zagoruyko 和Nikos Komodakis 在仔細研究分析ResNet的基礎上，提出了一種新穎的模型架構。他們通過減小殘差神經網路的深度並擴大網路的寬度得到了一種能夠更充分使用模型特徵的殘差網路。雖然有人表示這種網路容易過擬合，但是它確實有效。

640?wx_fmt=png

Various residual blocks used by the authors

作者將這一網路命名為寬殘差神經網路（WRNs），並展示了其相較於超過很深很細架構的優勢。相較於ResNet，其卷基層中擁有2-12x豐富的特徵圖。

ResNeXt

ResNeXt贏得了ILSCRV2016的第二名的成績，它是一個用於影象分類的高度模組化網路。這一網路架構設計的均勻多分支的網路結構中僅僅只需要設定很少的幾個超引數。

640?wx_fmt=png ResNet(Left)單元與ResNeXt單元的比較(右)

這一網路對於新進維度的策略是基於一種稱為“基數”（進行變化序列的大小）的基本模組展開的。這一網路證明增加“基數”模組比單純的增加深度和寬度更有效。所以這一網路結構的精度要高於ResNet和WideResNet。

DenseNet

Gao Huang, Zhuang Liu, Kilian Q. Weinberger 和Laurens van der Maaten於2016年提出了密集卷積神經網路DenseCNN的概念，在前饋過程中將每一層與其他的層都連結起來。對於每一層網路來說，前面所有網路的特徵圖都被作為輸入，同時其特徵圖也都被其他網路層作為輸入所利用。

640?wx_fmt=png

5層的緻密網路，每一層將所有層都視為自己的輸入

DenseCNN具有很多的有點，包括緩解梯度消失的問題，強化特徵傳播和特徵的複用，並減少了引數的數目。DenseNet相較於ResNet所需的記憶體和計算資源更少，並達到更好的效能。

▌兩個有前景的的新架構

新的模型層出不窮，其中Attention Modules和SENet是值得我們關注的新型模型。

SENet

在ILSCRV2017上取得冠軍的縮聚-激發網路（SENet），包含特徵壓縮、激發（特徵通道權重計算）和重配權重等過程，如下圖所示。在不引入新的空間維度的前提下這種架構使用了“特徵重標定”的策略來對特徵進行處理。通過學習獲取每個特徵通道的重要程度，根據重要性去抑制或者提升相應的特徵，最終在今年的比賽測試集中實現了2.251%的Top-5錯誤率。

640?wx_fmt=png

SENet 模型示意圖: Squeeze, Excitation 和 Scaling Operations

Residual Attention Networks

殘差注意力網路是一種應用了注意力機制的卷積神經網路，可將最先進的前饋網路架構融合到端到端的訓練過程中。注意力殘差學習被用於十分深的殘差注意力網路（這種網路可以達到幾百層的規模）。

640?wx_fmt=png

Resi雙注意力網路分類示意圖:上述的影象顯示了不同特徵在殘差注意力網路中用於不同的相應。天空部分的掩膜減小了底層背景藍色特徵，二氣球掩膜的例項則強調了氣球底部的高階特徵。

640?wx_fmt=jpeg

現在，每1000$可以買到的計算機處理能力大概相當於人腦的1/1000。根據摩爾定律，我們可以在2025年達到人腦的水平並在2050年超過所有人類的水平。AI的能力必將會隨時間加速增長。隨著機器處理能力的不斷提高和越來越多的資料，深度學習研究必將會更迅猛的發展，演算法的精度和能力也將會越來越高。作為AI領域的前線打拼者，我們正在見證和參與著這一激動人心的變革。

招聘

新一年，AI科技大本營的目標更加明確，有更多的想法需要落地，不過目前對於營長來說是“現實跟不上靈魂的腳步”，因為缺人~~

所以，AI科技大本營要壯大隊伍了，現招聘AI記者和資深編譯，有意者請將簡歷投至：[email protected]，期待你的加入！

如果你暫時不能加入營長的隊伍，也歡迎與營長分享你的精彩文章，投稿郵箱：[email protected]

如果以上兩者你都參與不了，那就加入AI科技大本營的讀者群，成為營長的真愛粉兒吧！（無法加入？請新增營長微信1092722531）

640?wx_fmt=jpeg

640?wx_fmt=png

☟☟☟點選 | 閱讀原文 | 檢視更多精彩內容

從AlexNet到DenseNet，再到SENet，一文看懂影象分類領域的突破性進展

從AlexNet到DenseNet，再到SENet，一文看懂影象分類領域的突破性進展

從概念到底層技術，一文看懂區塊鏈架構設計

從字串到常量池，一文看懂String類設計

一文看懂Python的面向物件程式設計，這是真正的一篇非常棒的教程！

一文看懂用word製作電子公章，2分鐘就能搞定！

一文看懂HTML5的六大優勢，HTML5這麼火是有道理的

什麼是區塊鏈，一文看懂區塊鏈架構設計（附知識圖譜）

【科普雜談】一文看懂大資料的技術生態圈，Hadoop，hive，spark都有了

一文看懂機械鍵盤，從小白到行(ru)家(shou)

一文看懂大資料的技術生態Hadoop， hive，spark都有了

乾貨丨一文看懂生成對抗網路：從架構到訓練技巧

『王霸之路』從0.1到2.0一文看盡TensorFlow奮鬥史

世界杯迄今最火的一場比賽一文看懂世界杯背後的阿裏雲黑科技

一文看懂新能源汽車行業如何踐行智能制造

一文看懂外匯風險準備金率調整為 20%的含義

一文看懂ConstraintLayout的用法

一文看懂AI企業集體進入翻譯市場的底層邏輯

Python 3.X | 一文看懂不懵圈：位置引數（必選引數）、預設引數、可變引數、關鍵字引數、形參、實參...

一文看懂Mockito『手把手教你 Mockito 的使用』

一文看懂為何華為停止社招

從AlexNet到DenseNet，再到SENet，一文看懂影象分類領域的突破性進展

相關推薦