ImageNet專案中基於CNN的各種神經網路結構演進過程
1、ImageNet資料集背景介紹: 如果說Mnist資料集將初學者領進了深度學習領域,那麼Imagenet資料集在深度學習中尤其是計算機視覺領域掀起了巨大的浪潮。ImageNet專案於2007年由斯坦福大學華人教授李飛飛創辦,目標是收集大量帶有標註資訊的圖片資料供計算機視覺模型訓練。ImageNet擁有1500萬張標註過的高清圖片,總共擁有22000類,其中約有100萬張標註了圖片中主要物體的定位邊框。Imagenet資料集是目前深度學習影象領域應用得非常多的一個數據,關於影象分類、定位、檢測等研究工作大多基於此資料集展開。ImageNet國際計算機視覺挑戰賽(ILSVRC)就是基於該資料集子集(120萬張圖片,以及1000類的標註),吸引了中美英等7個國家的25支頂尖人工智慧團隊參賽,該比賽每年舉辦一次。比賽採用top-5和top-1分類錯誤率作為模型效能的評測指標。
效能解釋:
top-5是指模型預測一個樣本的結果前五中有預測正確的即為預測正確,否則錯誤。
top-1是指模型預測一個樣本的最佳的最佳結果正確即為預測正確,否則錯誤。
2、ImageNet專案比賽的網路結構模型演進
自從2010年舉辦以來,各大公司和頂尖的團隊參賽不斷,包括Google、MSRA、DeepMind、港中文等。以下介紹幾種得冠團隊中經典的網路結構模型:AlexNet、VGGNet、Google Inception Net和ResNet。
1、AlexNet(2012年冠軍)
AlexNet的第一作者是Alex,是2012年被髮表的一個金典之作,並在當年取得了ImageNet比賽的最好成績。官方提供的資料顯示準確率達到57.1%,AlexNet, top-5錯誤率16.4%.
網路結構引數:
2、InceptionNet(2014年冠軍)
InceptionNet是Google公司發明並建立的,當時還是InceptionV1,並在2014年獲得了ImageNet比賽的冠軍InceptionNet是一個22層神經網路,top-5錯誤率為6.7%。
Inception V1的特點:
- 22層,比AlexNet 的 8 層或者 VGGNet 的 19 層還要更深;
- 全域性平均池化層(將圖片尺寸變為1×11×1)取代全連線層;
- 小卷積核(1*1,3*3,5*5),最大池化層(3*3)
3、VGGnet(2014年亞軍)
VGGNet由牛津大學的視覺幾何組(Visual Geometry Group)提出,是ILSVRC-2014中定位任務第一名和分類任務第二名。並且證明了使用很小的卷積(3*3),增加網路深度可以有效提升模型的效果,而且VGGNet對其他資料集具有很好的泛化能力。VGGnet有16層和19層兩種。兩種網路除了卷積層層數的差別,其他都不大,並且在準確率上也相差不大.VGG19,在14年的效能表現為top-5錯誤率7.3%。
VGG19網路結構:
- 卷積層:16層
- 全連線層:3層
- 連續使用多層小卷積核(3*3*M)
ResNet(2015年冠軍)
ResNet在2015年被提出,主要是針對層數越深,訓練集準確率反而出現下降的情況提出的深度殘差網路,並在ImageNet比賽classification任務上獲得第一名,因為它“簡單與實用”並存,之後很多方法都建立在ResNet50或者ResNet101的基礎上完成的,檢測,分割,識別等領域都紛紛使用ResNet,Alpha zero也使用了ResNet,所以可見ResNet確實很好用。 ResNet的top-5錯誤率為3.57%。
ResNet的結構特點:
- 152層
- 層之間用到了ShortCutting,減少了訓練的難度。
在ImageNet影象識別專案中,幾乎所有網路結構都是基於卷積神經網路的改進,改進方向一般是網路的深度(也就是卷積層的個數)、卷積核的個數,卷積核的大小,啟用函式以及各層之間的連線方式(跳層連線)等等。在機器視覺的領域基本離不開卷積神經網路,並且隨著語音識別的,自然語言的發展,卷積神經網路也在序列處理當中發揮了很強的特徵提取的功能。。關於卷積神經網路的原理將在下一篇部落格詳細介紹。