1. 程式人生 > >【深度學習經典論文翻譯2】GoogLeNet-Going Deeper with Convolutions全文翻譯

【深度學習經典論文翻譯2】GoogLeNet-Going Deeper with Convolutions全文翻譯

Christian Szegedy, Wei Liu, Yangqing Jia. et al

摘要

我們提出了一個名為“Inception”的深度卷積神經網結構,其目標是將分類、識別ILSVRC14資料集的技術水平提高一個層次。這一結構的主要特徵是對網路內部計算資源的利用進行了優化。

這一目標的實現是通過細緻的設計,使得在保持計算消耗穩定不變的同時增加網路的寬與深。

為了提高質量,網路結構基於赫布原則(Hebbian principle)和多尺度處理規則(intuition of multi-scale processing)設計。一個具體化的例子是所謂GoogLeNet,也就是我們提交到ILSVRC14的成果,它是一個22層深的網路,其質量在分類和檢測這兩項指標中獲得評估。

1 引言

最近三年,主要由於深度學習和越來越實際的卷積網路的發展【10】,影象識別以及物體檢測的質量都在以驚人的速度提高。

一個振奮人心的訊息是大多數進步並不只是更強大的硬體、更大的資料庫和模型所帶來的,而主要是一些新創意、新演算法,以及優化的網路結構的成果。

現在,新的資料來源已經能夠使用,比如最頂級的ILSVRC 2014不僅會進行分類方面的競賽,也會進行物體檢測方面的競賽。我們提交到ILSVRC 2014的GoogLeNet實際上使用了 比贏得兩年前比賽的K【9,即AlexNet】 少12倍的引數,但精確度提高了很多。

在物體識別方面,最大的收穫其實並不來自於深度網路或是大型模型的單獨使用,而是來自深度結構和傳統機器視覺的協同作用,比如G【6】提出來的R-CNN演算法。

另一個值得注意的要素是隨著移動計算和嵌入式計算得到越來越廣泛的認同,我們的演算法的效率——尤其是其能量和儲存利用率——變得越來越重要。值得注意的是,這篇文章中展現的深度結構在設計時就考慮了這些因素,而不僅是執著於單純提高精度。

對於我們的大部分實驗,模型計算量限制在預測時間內15億次乘加運算左右,這讓我們的實驗並不僅僅是為了滿足學術好奇心(而盲目提高精確度),而是可以在現實中使用,即使對於很大的資料集,開銷也是合理的。

在本文中,我們所關注的是一個應用於計算機視覺的深度神經網路,名為“Inception”,它的名字來源於Lin等人【12】關於網路的論文,以及名言“我們要走向深度”。在我們這,“深”有兩層含義:首先,我們引入了一種高水平的組織方式來構建Inception的模組,同時以更加直接的方式來增加網路深度。一般而言,把Inception模型看做一個在Arora【2】的理論工作所激發的靈感的指引下所達到的巔峰是合理的。網路結構的優勢已經在ILSVRC 2014分類與檢測挑戰中得到驗證,在比賽中它大大超越了現有水平。

2 相關研究

從LeNet-5開始【10】,卷積神經網路(CNN)就已經具有標準化的結構了——堆疊起來的卷積層(可能後面跟著對比度歸一化層和最大池化層),後面跟隨著全連線層。這種基礎設計的變種在影象分類領域十分流行,並且在MNIST,CIFAR等資料集,尤其是ImageNet分類挑戰賽【9,21】中產生了極佳的結果。對於ImageNet這樣的大型資料集,最近流行的趨勢是增加層數【12】和每一層的大小【21,14】,並利用dropout演算法解決過擬合問題。

雖然對最大池化的關注造成了準確空間資訊的喪失,文獻【9】中的網路結構還是被成功地應用到了區域性化【9,14】,物體檢測【6,14,18,5】和人體姿勢識別【19】等方面。受到神經科學對主要視覺皮層進行建模的啟發,Serre等人【15】用一系列不同大小的固定的(fixed)Gabor過濾器去處理多尺度,這與Inception是相同的。然而,相比文獻【15】中fixed的兩層模型,Inception中所有過濾器是學習得到的。進一步的,Inception的各層都重複多次出現,形成了GoogLeNet——一個22層網路模型。

網中網(Network-in-Network)是Lin提出來的一種結構【12】,其目的是為了增加神經網路的表現力。當應用於卷積層的時候,這一方法可以看做一個額外的1×1卷積層,後面通常跟著一個修正的線性啟用(rectified linear activation)。這使得Network-in-Network能夠輕鬆地整合到現有的CNN管道中。這種方法在我們的網路體系結構中被大量地使用。然而,在我們的設定中,1×1卷積具有雙重目的:最重要的一點是,它們被主要用於降維模組以打破計算瓶頸,否則我們的網路規模會受到限制。這使得我們不僅可以加深網路,同時還可以加寬,而不造成嚴重的效能下降。

現在最好的物體檢測方法是區域卷積神經網【?Regions with Convolutional Neural Networks (R-CNN)】,由Girshick【6】提出。R-CNN將整個檢測問題分解為兩個子問題:第一部使用低層線索比如組成潛在物體的顏色、超畫素等,提取出一些類別不可知的資訊,然後接下來利用CNN在這些區塊資訊上識別物體類別。這種雙步方法中,低層線索會影響切分割槽塊大小的準確性【Such a two stage approach leverages the accuracy of bounding box segmentation with low-level cues,】以及CNN分類的準確度。我們在提交的檢測程式中採用了同樣的管道,但我們對其中的每一步都進行了加強,比如採用多盒預測【5】以提高邊界識別集合的召回率【?such as multi-box [5] prediction for higher object bounding box recall】,還對bounding box提出的分類建議進行了不同方法的搭配合成,以獲得更好的結果。

3 動機與高層設計考慮

最直接提高深度神經網路效能的方法是增加其規模,包括通過增加層數以增大深度,通過增加每一層的節點數以增加寬度。這是訓練高質量模型最簡單安全的方法,特別是對於給定的大規模標籤資料集。然而這種簡單的解決方法有兩大缺陷。

更大的網路規模往往意味著更多的引數,這使得擴大後的網路更易過擬合,特別是當訓練集中的標籤樣例有限的時候。這能夠變成一個主要的瓶頸,因為製作高質量的訓練集是要技巧的,也是很昂貴的,特別是人類專家對於類別力度的準確把握對於ImageNet這樣的資料集而言是很重要的(即使是ILSVRC的1000類子集),如圖一所示。


另一個統一增加網路大小的缺陷是計算資源需求的暴增。例如,在一個深度視覺網路,如果兩個卷積層相連,任何增加過濾器數量的改動都會導致增加二次方倍數的計算量。如果增加的計算力沒有被有效使用(比如大部分的權值趨於0),那麼大量的計算會被浪費。實際應用中可用的計算力是有限的,即使是以提高模型質量為主要目標,高效分佈計算資源,其實也比盲目增加網路體積更加有效。

解決這兩個問題的基本方法最終一般是把全連線改成稀疏連線的結構,甚至包括在卷積中也這麼做。除了模擬生物系統,根據Arora【2】的突破性研究證明,這樣做也可以在理論上獲得更強健的系統。

Arora等人的主要結果顯示如果資料集的概率分佈是一個十分稀疏的大型神經網路所能表達的,那麼最合適的網路拓撲結構可以通過分析每一步的最後一層啟用函式的統計關聯性,並將具有高相關性輸出的神經元進行聚類,而將網路一層一層地搭建起來。

雖然嚴格的數學證明需要很強的條件,但事實上這種情況符合著名的赫布原則——神經元如果啟用條件相同,它們會彼此互聯——這意味著在實踐中,赫布原則在不那麼嚴苛的條件下還是可以使用。【轉自百度百科:Hebb學習規則是一個無監督學習規則,這種學習的結果是使網路能夠提取訓練集的統計特性,從而把輸入資訊按照它們的相似性程度劃分為若干類。這一點與人類觀察和認識世界的過程非常吻合,人類觀察和認識世界在相當程度上就是在根據事物的統計特徵進行分類。Hebb學習規則只根據神經元連線間的啟用水平改變權值,因此這種方法又稱為相關學習或並聯學習。】

從負面而言,當涉及大量非統一的(non-uniform)稀疏的資料結構的計算時,現在的計算設施是很低效的。即使算術運算量降低100倍,查表運算和快取失準(cache miss)也依然是主要瓶頸以至於稀疏矩陣的處理無法成功。如果使用穩定改進(steadily improving)、高度調製(highly tuned)、擁有大量庫函式支援極快速密集矩陣相乘、關注CPU或GPU底層細節的方法,那麼這種計算需求與計算資源之間的鴻溝甚至可能被進一步拉大。

另外,非統一(non-uniform?異構????)的稀疏模型需要複雜的工程結構與計算結構。目前大部分面向機器學習的系統都利用卷積的優勢在空間域中使用稀疏性。然而,卷積是通過一系列與前層區塊的密集連線來實現的,文獻【11】發表後,卷積神經網通常在特徵維度中使用隨機的稀疏的連線表,以打破對稱性,提高學習水平,然而,根據文獻【9】這種趨勢會倒退回全連線模式,以便更好滴使用平行計算。

統一的結構、巨大的過濾器數量和更大的批次(batch)規模將允許使用高效的密集矩陣運算。

這就導致了一個問題,是不是存在一箇中間步驟,如同理論上所顯示的,能夠讓整個結構即使在過濾器層面上都能使用額外的稀疏性,但依舊是利用現有硬體進行密集矩陣計算【an architecture that makes use of the extra sparsity, even at filter level, as suggested by the theory, but exploits our current hardware by utilizing computations on dense matrices】。大量關於稀疏矩陣計算的文獻,比如文獻【3】,都顯示將稀疏矩陣聚類到相對密集的子矩陣上能夠讓稀疏矩陣相乘的效能達到實用水平,把同樣的方法應用到自動構建非統一深度學習結構上,在不遠的將來看起來並不過分。

Inception的體系結構始於第一作者研究的一個例子——評估複雜拓撲結構的網路演算法的假設輸出,嘗試近似地用一個密集的可獲得的元件表示一個文獻【2】提出的視覺網路的稀疏結構的假設輸出。

然而這項工作在很大程度上是基於假設進行的,僅僅在兩次迭代之後,我們就已經能夠看到一些對於選定的拓撲結構非常不利的有限的成果【12】。在調節了學習速率、超係數,和採用了更好的訓練方法之後,我們成功地建立了Inception的體系結構,使之能夠在基於文獻【5】和【6】提出的區域性化和物體檢測的上下文環境中非常好用。有趣的是,大多數最初的結構都被徹底地檢測過,它們都至少能夠達到區域性最優。

然而還是需要被謹慎考慮的是:雖然我們提出的體系結構在計算機視覺方面的應用很成功,但這能否歸功於其背後的設計指導原則還不是很確定。

想要確定這一點還需要更加徹底的分析和驗證:比如,基於這些規則的自動化工具是否能夠找到與之類似但卻更好的網路拓撲結構。最有說服力的證據將會是自動化系統能夠利用相同的演算法在不同的領域創建出具有相似結果,但整體架構有很大不同的網路拓撲。

最後,Inception最初的成功為探索這一領域讓人激動的未來產生了巨大的動力。

4 結構細節

Inception的體系結構的主要設計思路是要在一個卷積視覺網路中尋找一個區域性最優的稀疏結構,這個結構需要能夠被可獲得的密集元件(dense component)覆蓋和近似表達。

請注意,假定轉義的不變性(translation invariance)意味著我們的網路將利用卷積砌塊(convolutional building blocks)建立。我們所需要做的只是尋找區域性最優化結構並在空間上對其進行重複。

Arora等人在文獻【2】中提出,一個逐層搭建的結構,需要分析其每一步的最後一層的統計關聯性,並將高度相關的神經單元聚類為簇。

這些簇組成了下一層的單元並與前一層的各個單元相連。

我們假設前面一層的每個單元都對應輸入影象的某些區域,而這些單元被分組分配給過濾器。在較低的層次(更靠近輸入端),相關的單元聚焦於區域性區域。這意味著我們能夠得到大量聚焦於同一區域的簇,它們會被下一層的1×1卷積覆蓋,如同文獻【12】所述。

然而,更少的在空間上傳播更多的簇(a smaller number of more spatially spread out clusters)(這些簇會被區塊更大的卷積所覆蓋)是可以被期待的,這樣的話,覆蓋大型區域的區塊數量就會減少。為了避免區塊對齊問題(patch alignment issues),現有的Inception結構將過濾器大小限制為1×1,3×3 和 5×5,然而這種設定更多是為了方便而不是必要的。

這也意味著合理的網路結構應該是將層次的輸出過濾器bank結合起來,並將其合併為單一向量作為輸出以及下一層的輸入。

另外,因為池化操作對於現有水平的卷積網路是很重要的,建議最好在每一部增加一條並行池化通路,這樣應該也會有一些額外的好處:如圖2a所示。


Inception模組是一層一層往上棧式堆疊的,所以它們輸出的關聯性統計會產生變化:更高層抽象的特徵會由更高層次所捕獲,而它們的空間聚集度會隨之降低,因為隨著層次的升高,3×3和5×5的卷積的比例也會隨之升高。

一個大問題是,上述模型,至少是樸素形式(naive form)的模型,即使只有很有限個數的5×5卷積,其最上層卷積層的巨量過濾器的開支都會讓人望而卻步。一旦把池化層加進來,這個問題會變得更加嚴重:

它們的輸出過濾器個數與前面過程的過濾器個數相等。池化層輸出與卷積層輸出的合併會導致無法避免的每步輸出暴增。

即使是當這種結構覆蓋了最優的稀疏結構,它可能依然還是很低效,從而導致少數幾步的計算量就會爆炸式增長。

這種情況導致我們提出了第二種設想:審慎地把降維和投影使用到所有計算量可能急劇增加的地方。

這是基於嵌入的成功(success of embeddings)來設計的:相對於一個大型的影象區塊,即使是低維的嵌入也可能包含大量的資訊。

然而,嵌入會把資訊以一種緻密的,壓縮的方式展現出來,而壓縮資訊是很難被建模的。

我們還是想在大部分位置保持稀疏性(如同文獻【2】所要求的),而只在訊號需要被聚合的時候壓縮它們。

也就是說,1×1卷積被用於在昂貴的3×3和5×5卷積之前降維。

除了用於降維,它們也被用於資料線性修正啟用(rectified linear activation),這使之具有雙重使命。最後的結果如圖2b。

一般而言,一個Inception網路是由一系列上述結構棧式堆疊而成,有時候步長為2的最大池化層會把網路一分為二。

出於技術原因(更高效的訓練),只在高層使用Inception結構而把低層保留為傳統的卷積模式似乎是有利的。

這並不一定是必要的,只是反映了有些基礎設施對於我們的設計而言很低效。

這一結構一個有利的方面是它允許每一步的神經元大量增加,而不會導致計算複雜度的暴增。

降維的普遍存在能夠阻擋大量來自上一層的資料湧入下一層的過濾器,在大區塊上對其進行卷積之前就對其進行降維。

該設計另一個在實踐中很有用的方面是,它與【視覺資訊應該被多層次處理,然後被彙集到下面層次彙總,同時抽取多尺度特徵】的特性相一致。

計算資源的優化利用允許我們增加每層網路的寬度以及層數,而無需面對增加的計算困難。

另一種使用Inception架構的方法是開發一種質量稍差,但計算起來更便宜的版本。

我們已經發現,用於平衡計算資源的控制因素 可以使得我們的網路比表現相同(譯者注:這裡可能是指精確度)而不使用Inception結構的網路快2~3倍,只是這需要極為精細的人工調整。

5 GoogLeNet

我們選擇GoogLeNet作為我們參加ILSVRC14比賽的隊名。這個名字是為了紀念先驅者Yann LeCuns開發的LeNet5網路【10】。

我們也是用GoogLeNet作為我們在比賽中提交的Inception結構的具體實現的名字。

我們使用了一個更深、更寬的Inception網,其質量稍差,但如果把它進行合理搭配,會稍微改進其表現。

我們忽略了網路的實現細節,因為我們的實驗表明,特定的某一結構引數的影響相對而言是很微小的。

在此,最成功的實現例項GoogLeNet是如表1所示的情況。一模一樣的拓撲結構(用不同樣例訓練)在我們七分之六的合成模型中得到了應用。


所有的卷積,包括那些Inception模組內的卷積,都使用修正線性啟用函式(rectified linear activation)。我們網路的感知域是一個RGB三色通道的224×224區域,並且經過了減去均值的處理。“#3×3”降維和“#5×5”降維是1×1過濾器的等量代換【??stands for the number of 1×1 filters】,用於在進行3×3和5×5卷積之前進行降維。1×1過濾器的數量可以在池化投影列(pool proj column)中的最大池化層後面的投影層中看到。所有的降維層和投影層也都使用修正線性啟用函式(rectified linear activation)。

網路的設計是基於計算的效率與可實踐性展開的,因此其推演過程可以在單臺裝置上進行,即使這些裝置的運算資源極其有限(尤其是記憶體極其有限的裝置)。

如果只計算有引數的層,我們的網路有22層深(算上池化層有27層)。

由於構建網路的總層數(獨立砌塊)有將近100個。

然而,這一數量需要依靠機器學習的基礎設施,用於分類器之前的平均池化層是基於文獻【12】設計的,雖然我們的實現方式有點不同:我們使用了一個多出來的線性層(use an extra linear layer)。

這使得在其它標籤資料集上調整我們的網路變得容易,但這主要是為了方便,我們並不指望會有什麼大的影響。

我們發現,從全連線層到平均池化的移動【?a move from fully connected layers to average pooling】會讓TOP-1準確度提高0.6%,然而,DROPOUT的使用依然很重要,即使去掉了全連線層。

對於相對更深的網路,穿過所有層次高效向後梯度傳播的能力是很關鍵的。

一個有趣的理論是,在這項任務中,相對淺層的網路的強大效能表明網路中層所產生的特徵是具有很好的區分度的。

通過增加一些與這些中間層相連的附加的分類器,我們可以期待在分類器的低層增加向後傳播的梯度訊號,同時增加更多的正則化。

這些分類器採用較小的卷積網路形式,被安置在Inception(4a)和(4d)模組的輸出的頂部。

在訓練中,它們的偏差被折扣後加到總偏差中(附加分類器的偏差乘以0.3)。在預測過程中,這些附加網路會被拋棄。

附加網路的結構,包括附加分類器的結構如下:

l   一個平均池化層,過濾器為5×5,步長為3,在4(a)得到一個4x4x512的輸出,在4(d)得到一個4x4x528的輸出。

l   一個1x1卷積,有128個過濾器,用於降維和規範化線性啟用(dimension reduction and rectified linear activation)。

l   一個擁有1024個單元和規範化線性啟用的全連線層。

l   一個會拋棄70%輸出的DROPOUT層。

l   一個使用softmax偏差的線性層,這一層被用作分類器(與主分類器一樣,它進行1000類分類,但在預測階段,它會被拋棄)

最後得到的整個網路的示意圖如圖三所示。


6 訓練方法

我們的網路使用文獻【4】提出的分佈置信網路,將機器學習系統分佈為合適數量的模型和資料並行。

雖然我們只使用基於CPU的實現,一個粗略的估計證明GoogLeNet可以在少數幾個高速GPU終端上進行訓練並在一週內收斂,其主要限制是記憶體數量。

我們的訓練使用動量(momentum)為0.9的非同步隨機梯度下降,並將學習速率固定為每八次迭代減少0.04。Polyak均值【13】被用於建立在推理過程中使用的最終模型

我們的圖片取樣方法在比賽前數個月就進行了徹底的修改,並在其他設定條件下通過了收斂測試——包括結合不同的超係數(比如DROPOUT率和學習速率),所以很難為【找到最高效的訓練網路的方法】提供極為準確的指導。

更復雜的是,根據文獻【8】的思路一些模型主要是在相對較小的粒度上進行訓練,而另一些採用更大的粒度。

所以,一個在比賽之後已經被證明非常有效的方案是將取樣區塊的大小平均分佈在圖片區域的8%到100%之間,寬高比隨機分佈與3/4和4/3之間。

同時,我們發現AH【8】提出的光度變換對於對抗過擬合在某種程度上是很有用的。

另外,我們開始的時候使用插入方法(等概率地使用雙線性(bilinear雙曲線?)、區域、最近鄰、三次函式),以便在相對靠後的階段重新確定取樣大小,以及其他超係數的結合,所以我們無法明確知道這些方法的使用對於最後結果是不是真的有積極影響。

7 ILSVRC 2014分類挑戰的設定與結果

ILSVRC 2014分類挑戰包括將圖片分類到1000個ImageNet層次結構的葉子節點類別中。

一共有120萬張圖片用於訓練,5萬張圖片用於驗證,10萬張圖片用於測試。

每張圖片都與一個特定的類別相連,而效能則通過模型判斷的可能性最高的類別是否合理進行檢驗。

兩個指標被用於報告中:TOP-1精確度——比較真實情況與預測認為可能性最高的情況;TOP-5精確度——比較真實情況與預測認為可能性最高的前五種情況,一張圖片的真實分類如果落入前五種預測分類之一,則視為分類正確,不考慮類別的排序位置。

挑戰賽利用TOP-5錯誤進行排名。

我們不利用任何附加資料參加這項挑戰賽。

除了論文前述的訓練技術,我們還採用瞭如下一系列測試技術去提高效能:

1,我們獨立訓練了七個版本的相同的GoogLeNet模型(包括一個寬度更大的版本)

然後將其聯立起來進行預測。

這些模型訓練基於相同的初始化(由於一個oversight,甚至初始權值都是相同的)以及學習速率策略。

唯一的不同是取樣方法和圖片輸入順序不同。

2,在測試中,我們採取了比Krizhevsky等人【9】更大膽的裁切策略。特別地,我們將圖片重設為四種不同的尺度(高和寬),分別是256,288,320和352,包括左中右三塊(如果說肖像圖,我們取頂中底三塊)

對於每一塊,我們取其四角和中心,裁切出5個 224x224的區塊,同時取其映象。

結果每張圖就得到了4×3×6×2 = 144個區塊。

同樣的方法AH【8】也在前些年的比賽中用了,根據我們的經驗證明,其表現會比他們提出來的差一點。

我們注意到,如此激進的方法可能在實際應用中不是很有必要,因為當區塊數超過合理範圍之後,其帶來的好處也就不那麼重要了(我們後面會展示)。

3,softmax概率分佈被平均到不同的裁切以及所有的單分類器上以獲取最終的預測結果。

在我們的試驗中,我們在驗證資料上分析了所有可選的方法,比如各個裁切區塊上的最大池化,以及對分類器取平均。但它們會導致比簡單平均更差的表現。


在餘下的文章中,我們將分析各個因子在最終提交的作品中對效能的影響。

我們最後提交的挑戰賽作品將TOP-5錯誤在驗證集和測試集上都降到了6.67%,在參賽者中排名第一。

與2012年的SuperVision方法相比,降低了56.5%,與去年獲得第一的Clarifai方法相比降低了40%,而且這些方法都使用了外部資料來訓練分類器。

如下表格展示了歷年最優方法的統計資料。

我們還通過改變模型數量以及切分數量,分析並報告了其他幾種測試策略對於圖片進行預測的效果,結果見下表。

當我們使用一個模型,我們選擇其在驗證資料上的最低TOP-1錯誤率。

所有資料報告基於驗證資料集,以避免測試集上的過擬合。

8 ILSVRC 2014識別挑戰的設定與結果

ILSVRC的識別任務是在兩百中可能類別上產生圍繞物體的邊界線(bounding boxes)。

如果邊界線與事實重合至少50%(使用交除以並的雅卡爾係數Jaccard Index)則認為識別物體成功。

無關的識別將視為假正錯誤並遭受處罰。

與分類不同,每張圖可能包含多個物體,也可能不包含任何物體,物體可大可小。結果報告採用平均精度(mAP)。


GoogLeNet所採取的物體檢測方法與文獻【6】提出的R-CNN很類似,但因為在Inception模型中作為區域性分類器使用而被放大了。

另外,為了獲得更高的邊界線召回率,通過將多邊界預測【?multi-box predictions】【5】與選擇性搜尋(Selective Search)【20】相結合,區域提取的步驟【?the region proposal step】得到了改進。為了減少假正錯誤率,超畫素的大小被擴大了兩倍。這導致了選擇搜尋提取數量的減半【This halves the proposals coming from the selective search algorithm.】我們又把兩百個多盒【5】提取區域加了回去,總共包括了文獻【6】提出的60%,把覆蓋率從92%提高到了93%。

利用增加覆蓋率減少提取區域的總體效果是每個模型的平均精確度增加了1%。

最後,在分類每個區域的時候我們使用6個卷積神經網路的集合,從而將準確率從40%提高到了43.9%。請注意與R-CNN相比,限於時間,我們並未使用邊界線迴歸(bounding box regression)

我們首先報告了可能性最高的檢測結果,並從第一個版本的檢測任務開始展示了整個過程。

與2013年的結果相比,準確率幾乎翻了一倍。

系統性能最佳的隊伍都使用了卷積神經網路。

我們在表4展示了官方分數以及相同的系統策略:是否使用外部資料、模型整合或是其他上下文模型。

外部資料主要是用ILSVRC12分類資料來進行預訓練,然後再將模型限制在檢測資料上。

一些隊伍還提到了使用區域性化資料。

因為適當比例的區域性化任務的邊界線並不包含在物體檢測資料集中,可以預先將這些資料用到一個普適的邊界線迴歸器上,用於最終預測相同的方式進行預訓練。

GoogLeNet並不使用這種區域性化資料進行預訓練。

如表5,我們比較了使用不同單個模型的最終結果。

表現最好的是DeepInsight模型,讓人驚訝的是,DeepInsight使用三種模型的整合卻只提高了0.3個點(的精度),而我們的模型整合後就要強大得多。

9 結論

我們的結果似乎產生了一個堅實的結論——利用現有密集砌塊逼近預想中的最佳稀疏結構,是一種可行的提高計算機視覺神經網路能力的方法。

這種模型的主要優勢是與淺層且較窄的網路相比,只要適度增加計算需求就能極大地提升質量。

還請大家注意,我們的檢測技術即使沒有使用上下文和邊界迴歸,依然很有競爭力,這一事實提供了進一步的證據證明Inception結構的強大。

雖然相同質量的網路可以被同樣寬度和深度的更昂貴的網路實現,我們的方法卻切實地證明了切換到一個更稀疏的結構上是一個在普遍情況下可行且有用的方法。

這意味著一個充滿希望的未來——開發文獻【2】提出的自動建立一個更稀疏,更有限的結構的方法。