1. 程式人生 > >從AlexNet到DenseNet,再到SENet,一文看懂影象分類領域的突破性進展

從AlexNet到DenseNet,再到SENet,一文看懂影象分類領域的突破性進展

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

本文轉自將門創投(thejiangmen)

來源 | ParallelDots

編譯 | Tom Ren

深度學習模型近年來在影象分類領域的能力得到了指數級的提升,併成為了AI領域最為活躍的研究領域。但其實深度學習的歷史並不長,Yann Lecun在1998年的時候發表了卷積神經網路的前言探索,但是在深度學習真正爆發之前經歷了多年的沉積。

幾年來深度學習的爆發歸功於機器處理能力的大幅提升(GPU),以及海量的資料(Imagenet)和先進的演算法技術。這一次深度學習的革命興起於2012年的AlexNet,這一大規模的深度卷積神經網路贏得了當年ILSVRC的冠軍。(ILSVRC是一個在給定資料級上進行特定視覺識別任務的演算法挑戰賽。)從那時起,CNN家族就拿下了這一比賽,並超過了人類視覺5%~10%的準確率水平。

640?wx_fmt=png

ILSVRC比賽見證了神經網路效能的不斷提升,從2010年接近30%的錯誤率提升到了今年2.251%的錯誤率。

對於人類而言,理解一張圖片的內容很容易,但是對於機器來說卻很困難。因為機器面對的一個由陣列構成的圖片,從一堆數字裡識別出貓的模樣是十分困難的事情。更別提貓還有不同種類、毛色、大小和姿態了。

640?wx_fmt=png我們看見的 vs 機器看見的世界

深度學習經過了四五年的發展,衍生出了各種各樣不同的架構並取得一系列的突破。我們列舉了這一領域曾經發生的一系列突破性研究,來為大家呈現出深度學習的發展脈絡。最後我們提出了兩個全新的演算法,也許未來會對計算機視覺的研究帶來新的變革。

影象分類研究領域的突破性研究論文

AlexNet

在ILSVRC2012中, Alex Krizhevsky, Ilya Sutskever, 和 Geoffrey Hinton 提出了名為AlexNet的深度神經網路,它首次達到了15.4%的錯誤率,比當時的第二名整整低了10%。Alexnet這一令人矚目的成就極大地震動了整個計算機視覺領域,並直接帶了近年來深度學習和卷積網路的爆發性增長。

640?wx_fmt=png

AlexNet在兩個GPU上分別部署的架構圖

這是歷史上第一次模型能在曾經如此困難的ImageNet的資料集上表現如此之好,AlexNet同時也奠定了深度學習里程碑式的基礎。這篇文章也是迄今為止深度學習引用最高的文章之一,約7000次。

ZFNet

Matthew D Zeiler(Clarifai的創始人) 和 Rob Fergus 贏得了ILSVRC 2013的比賽,其準確率超過了AlexNet達到了11.2%的錯誤率。ZFNet在模型中引入了新穎的視覺化技術,給予了研究人員對於中間特徵層以及分類器操作更多的解讀,彌補了AlexNet在這方面的不足。

640?wx_fmt=png

ZFNet網路架構

ZFNet 利用解卷積網路的技術使得檢驗不同特徵啟用及其與輸入空間的關係成為了可能。

VGG Net

來自於牛津大學的Karen Simonyan 和 Andrew Zisserman於2014年創造的VGGnet在2014年ISLVRC上取得了第二名的優秀結果。VGGnet展示了可以在先前網路架構的基礎上通過增加網路層數和深度來提高網路的效能。VGGnet包含16-19層權重網路,比先前的網路架構更深層數更多。

640?wx_fmt=pngMVGG Net.的架構

這一架構廣受好評的原因來自於它簡單的結構,更易於理解,但是依舊擁有可以優化的空間。它的特徵圖目前被廣泛應用於遷移學習和其他需要與訓練的網路結構中,例如絕大多數的GANs。

GoogleNet

來自Google的Christian Szegedy等人提出了稱為GoogleNet的22層神經網路贏得了14年ISLVRC的冠軍。這錯誤率只有6.7%的模型奠定了Google在計算機視覺領域的地位。這一模型最引人注目的地方在於模型架構極大的改善了計算機計算資源的利用率,在精心設計的網路下,模型的計算開銷在深度和寬度增加的情況下保持常數。GoogleNet在模型中引入了Inception Module,利用非序列化的並行方式來提高模型的效能。

640?wx_fmt=png

GoogLeNet 的架構和其中的 inception 單元

GoogleNet令人矚目的是其識別準確率已經達到了人類的水平(5%~10%)。GoogleNet第一次引入了CNN模組的非序列化概念,Inception-module提供了一種更具創造性的結構,並能極大提高模型表現和計算效率。

ResNet

微軟的Kaiming He, Xiangyu Zhang, Shaoqing Ren 和 Jian Sun提出了ResNet,這是一個比先前網路都要深的殘差網路學習框架。這一網路的優點是更加容易優化,並能從網路層數的增加帶來顯著的精度提升。

640?wx_fmt=png

ResNet架構中的殘差單元

ResNet以3.57%的表現超過了人類的識別水平,並以152層的網路架構創造了新的模型記錄。

Wide ResNets

Sergey Zagoruyko 和Nikos Komodakis 在仔細研究分析ResNet的基礎上,提出了一種新穎的模型架構。他們通過減小殘差神經網路的深度並擴大網路的寬度得到了一種能夠更充分使用模型特徵的殘差網路。雖然有人表示這種網路容易過擬合,但是它確實有效。

640?wx_fmt=png

Various residual blocks used by the authors

作者將這一網路命名為寬殘差神經網路(WRNs),並展示了其相較於超過很深很細架構的優勢。相較於ResNet,其卷基層中擁有2-12x豐富的特徵圖。

ResNeXt

ResNeXt贏得了ILSCRV2016的第二名的成績,它是一個用於影象分類的高度模組化網路。這一網路架構設計的均勻多分支的網路結構中僅僅只需要設定很少的幾個超引數。

640?wx_fmt=pngResNet(Left)單元與ResNeXt單元的比較(右)

這一網路對於新進維度的策略是基於一種稱為“基數”(進行變化序列的大小)的基本模組展開的。這一網路證明增加“基數”模組比單純的增加深度和寬度更有效。所以這一網路結構的精度要高於ResNet和WideResNet。

DenseNet

Gao Huang, Zhuang Liu, Kilian Q. Weinberger 和Laurens van der Maaten於2016年提出了密集卷積神經網路DenseCNN的概念,在前饋過程中將每一層與其他的層都連結起來。對於每一層網路來說,前面所有網路的特徵圖都被作為輸入,同時其特徵圖也都被其他網路層作為輸入所利用。

640?wx_fmt=png

5層的緻密網路,每一層將所有層都視為自己的輸入

DenseCNN具有很多的有點,包括緩解梯度消失的問題,強化特徵傳播和特徵的複用,並減少了引數的數目。DenseNet相較於ResNet所需的記憶體和計算資源更少,並達到更好的效能。

兩個有前景的的新架構

新的模型層出不窮,其中Attention Modules和SENet是值得我們關注的新型模型。

SENet

在ILSCRV2017上取得冠軍的縮聚-激發網路(SENet),包含特徵壓縮、激發(特徵通道權重計算)和重配權重等過程,如下圖所示。在不引入新的空間維度的前提下這種架構使用了“特徵重標定”的策略來對特徵進行處理。通過學習獲取每個特徵通道的重要程度,根據重要性去抑制或者提升相應的特徵,最終在今年的比賽測試集中實現了2.251%的Top-5錯誤率。

640?wx_fmt=png

SENet 模型示意圖: Squeeze, Excitation 和 Scaling Operations

Residual Attention Networks

殘差注意力網路是一種應用了注意力機制的卷積神經網路,可將最先進的前饋網路架構融合到端到端的訓練過程中。注意力殘差學習被用於十分深的殘差注意力網路(這種網路可以達到幾百層的規模)。

640?wx_fmt=png

Resi雙注意力網路分類示意圖:上述的影象顯示了不同特徵在殘差注意力網路中用於不同的相應。天空部分的掩膜 減小了底層背景藍色特徵,二氣球掩膜的例項則強調了氣球底部的高階特徵。

640?wx_fmt=jpeg

現在,每1000$可以買到的計算機處理能力大概相當於人腦的1/1000。根據摩爾定律,我們可以在2025年達到人腦的水平並在2050年超過所有人類的水平。AI的能力必將會隨時間加速增長。隨著機器處理能力的不斷提高和越來越多的資料,深度學習研究必將會更迅猛的發展,演算法的精度和能力也將會越來越高。作為AI領域的前線打拼者,我們正在見證和參與著這一激動人心的變革。

招聘

新一年,AI科技大本營的目標更加明確,有更多的想法需要落地,不過目前對於營長來說是“現實跟不上靈魂的腳步”,因為缺人~~

所以,AI科技大本營要壯大隊伍了,現招聘AI記者和資深編譯,有意者請將簡歷投至:[email protected],期待你的加入!

如果你暫時不能加入營長的隊伍,也歡迎與營長分享你的精彩文章,投稿郵箱:[email protected]

如果以上兩者你都參與不了,那就加入AI科技大本營的讀者群,成為營長的真愛粉兒吧!無法加入?請新增營長微信1092722531

640?wx_fmt=jpeg

640?wx_fmt=gif

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

☟☟☟點選 | 閱讀原文 | 檢視更多精彩內容

相關推薦

AlexNet到DenseNetSENet影象分類領域突破性進展

本文轉自將門創投(thejiangmen)來源 | ParallelDots編譯 | Tom R

概念到底層技術區塊鏈架構設計

原文地址 前言 區塊鏈作為一種架構設計的實現,與基礎語言或平臺等差別較大。區塊鏈是加密貨幣背後的技術,是當下與VR虛擬現實等比肩的熱門技術之一,本身不是新技術,類似Ajax,可以說它是一種技術架構,所以我們從架構設計的角度談談區塊鏈的技術實現。 無論你擅長

字串到常量池String類設計

# 從一道面試題開始 看到這個標題,你肯定以為我又要講這道面試題了 ```java // 這行程式碼建立了幾個物件? String s3 = new String("1"); ``` 是的,沒錯,我確實要從這裡開始 ![image-20200615221408500](https://imgconv

Python的面向物件程式設計這是真正的篇非常棒的教程!

  之前在網路上看了很多關於面向物件的程式設計詳解,還是不夠過癮,所以決定自己動手寫一篇。 面向物件:Object Oriented Programming,簡稱OOP,即面向物件程式設計。           &nbs

用word製作電子公章2分鐘就能搞定!

現在很多公司的檔案和合同都是必須要加蓋公章才是有效的,有些公司發行檔案上就有公章,其實他們使用word做出來的,如果我們也還學會了,以後製作公章就簡單了!下面將逐一介紹如何製作公章,快來動動你的小手指吧!   步驟一:首先【插入】--【形狀】,選擇橢圓形,然後拖動至合適大小。

HTML5的六大優勢HTML5這麼火是有道理的

目前最具人氣的前端開發技術框架是什麼?移動至上時代的來臨促使越來越多的開發者利用HTML 5開發移動友好型網站。HTML 5的主要優勢一直在不斷演進,旨在提供足以與原生技術相匹配的功能。 從雷軍這樣的網際網路精英人士到菜場股市大媽都深信一點:只要站在風口,豬也能夠飛起來,那麼對於IT技能領域來講

什麼是區塊鏈區塊鏈架構設計(附知識圖譜)

轉載:https://blog.csdn.net/u011961421/article/details/79098309 前言 區塊鏈作為一種架構設計的實現,與基礎語言或平臺等差別較大。區塊鏈是加密貨幣背後的技術,是當下與VR虛擬現實等比肩的熱門技術之一,

【科普雜談】大資料的技術生態圈Hadoophivespark都有了

大資料本身是個很寬泛的概念,Hadoop生態圈(或者泛生態圈)基本上都是為了處理超過單機尺度的資料處理而誕生的。你可以把它比作一個廚房所以需要的各種工具。鍋碗瓢盆,各有各的用處,互相之間又有重合。你可以用湯鍋直接當碗吃飯喝湯,你可以用小刀或者刨子去皮。但是每個工具有自

機械鍵盤從小白到行(ru)家(shou)

網傳程式設計師小明的女朋友送給他一把高階機械鍵盤。小明帶到公司,引來整個部門程式設計師的圍觀和感嘆。小明以為大家會誇他有位好女朋友,結果自然是想多了……  機械鍵盤的身影越來越多地出現在我們的視線中,各種段子、各種網傳故事。當你頭一回聽說機械鍵盤,肯定會聽到過軸這個概念。常

大資料的技術生態Hadoop hivespark都有了

大資料本身是個很寬泛的概念,Hadoop生態圈(或者泛生態圈)基本上都是為了處理超過單機尺度的資料處理而誕生的。你可以把它比作一個廚房所以需要的各種工具。鍋碗瓢盆,各有各的用處,互相之間又有重合。你可以用湯鍋直接當碗吃飯喝湯,你可以用小刀或者刨子去皮。但是每個工具有自己的特

乾貨丨生成對抗網路:架構到訓練技巧

文章來源:機器之心 論文地址:https://arxiv.org/pdf/1710.07035.pdf 生成對抗網路(GAN)提供了一種不需要大量標註訓練資料就能學習深度表徵的方式。它們通過反向傳播演算法分別更新兩個網路以執行競爭性學習而達到訓練目的。GAN 學習的表徵可用於多種應用,包括影象合

『王霸之路』0.1到2.0盡TensorFlow奮鬥史

  ​   0 序篇 2015年11月,Google正式釋出了Tensorflow的白皮書並開源TensorFlow 0.1 版本。 2017年02月,Tensorflow正式釋出了1.0.0版本,同時也標誌著穩定版的誕生。 2019年10月,TensorFlo

世界杯迄今最火的場比賽 世界杯背後的阿裏雲黑科技

bottom 由於 otto 直播平臺 line 關於 變換 cdn 剪輯 摘要: 世界杯“法阿之戰”中帕瓦爾世界波以及姆巴佩梅開二度一定讓你印象深刻,而梅西的飲恨離開也讓不少球迷碎了心。但你知道,比賽當天的阿裏雲藏著什麽秘密嗎?世界杯“法阿之戰”中帕瓦爾世界波以及姆巴佩梅

新能源汽車行業如何踐行智能制造

生態 演練 產品質量 完整 獲得 制造 執行 安全 產業 當前中國的新能源汽車制造呈現出比以往任何時期都更加繁榮的景象,新能源汽車為汽車制造業帶來的變革效應正在日益顯現。 就整車生產而言,固有的傳統汽車廠商正在加碼新能源汽車,在國家政策鼓勵下,全新的新能汽車企業正在湧現。從

外匯風險準備金率調整為 20%的含義

成本 關系 白銀 賣出 說了 通過 http 影響 重要性 要理解央行將遠期售匯業務的外匯風險準備金率調整為 20%這個操作,先要理解遠期售匯這項業務。國際貿易在中國是非常旺盛的行業,有很多企業都有結售匯的需要,而一般企業進行結售匯都是跟銀行進行。打個比方,A公司從外國進口

ConstraintLayout的用法

users 百分比 style tom 子控件 code 比較 bottom inux ConstraintLayout 相對於 RelativeLayout來說性能更好,布局上也更加靈活。在最新的Google Android開發文檔中是推薦使用 ConstraintLay

AI企業集體進入翻譯市場的底層邏輯

邏輯 一點 長尾 需要 谷歌翻譯 如果 有效 全部 .com 翻譯市場從來沒有如此高的關註度,如果沒有AI和翻譯機,翻譯市場悶聲發大財的狀態還會繼續。但因為受到AI以及相關硬件的投放市場,讓翻譯市場受到前所未有的關註度,而這種關註不是翻譯行業本身,而是AI技術所驅動的產品給

Python 3.X | 不懵圈:位置引數(必選引數)、預設引數、可變引數、關鍵字引數、形參、實參...

Win 10+Python 3.6.3 不管是什麼引數,它們身處環境是:函式(function)。引數讓函式如虎添翼,靈活、強大。 1、概念釋義: def func(x, y=2, *arg, *, z, **kwargs): #print(x, y) #print(len(ar

Mockito『手把手教你 Mockito 的使用』

什麼是 Mockito Mockito 是一個強大的用於 Java 開發的模擬測試框架, 通過 Mockito 我們可以建立和配置 Mock 物件, 進而簡化有外部依賴的類的測試. 使用 Mockito 的大致流程如下: 建立外部依賴的 Mock 物件, 然後將此 Mock 物件注入

為何華為停止社招

一文看懂為何華為停止社招 百家號10-24 近日,關於國內通訊裝置巨頭華為公司停止社招的傳聞,引來眾多人士關注,一時之間,通訊行業冬天論再次捲土重來。雖然華為公司的“狼性文化”和“加班文化”一直為人詬病, 但其提供的遠超同行的薪資待遇、全球電信裝置市場領頭羊的廣闊舞臺和“高大上”的工