1. 程式人生 > 實用技巧 >為什麼影象分類任務要從256*256中裁剪出224*224

為什麼影象分類任務要從256*256中裁剪出224*224

為什麼很多模型將輸入縮放到256*256然後裁剪成224×224呢?

文章目錄


前言

我們之前已經回答過為什麼影象分類網路輸入大小是224*224,可以檢視往期解答,【AI-1000問】為什麼深度學習影象分類的輸入多是224*224。

在這裡插入圖片描述
首先要回顧一下為什麼分類任務的輸入影象大小常常是224*224。

分類任務輸出特徵圖如果尺寸太小,那麼資訊就丟失太嚴重,如果尺寸太大,資訊的抽象層次不夠高,計算量也更大,7×7的大小是一個很好的平衡。影象從大解析度降低到小解析度,降低倍數通常是2的指數次方,所以影象的輸入一定是7*2的指數次方。以ImageNet為代表的大多數分類資料集,影象的長寬在300解析度左右。

所以要找一個7×2的指數次方,並且在300左右的解析度作為輸入,其中7×2的4次方=7×16=112,7×2的5次方等於7*32=224,7×2的6次方=448,與300最接近的就是224了。

接下來我們再思考為什麼通常是將影象resize到256*256。

首先我們要知道crop的目標是用於做資料增強。

當我們描述一個數據集的大小,通常是以數量級來衡量,而資料增強也比例外,我們的目標是將資料集增長為原來的幾個數量級以上,即擴充10,100,1000倍等。

輸入為N×N的大圖,crop輸出為M×M的小圖,可以實現(N-M)×(N-M)的資料集擴充倍數。對應擴充10,100,1000,10000倍,N-M約為3,10,32,100,因為最終結果圖是224×224,所以原圖就應該是227×227,234×234,256×256,324×324,很明顯從256×256這個尺度進行裁剪,能夠保證主體不至於太小或者太大,如前面圖中紅色框。

那不使用256*256使用其他的尺寸如何呢?在比賽刷榜中,經常使用多尺度模型測試,即使用不同尺度的輸入圖進行裁剪然後進行結果融合,該作者曾經在Place365資料集上訓練過ResNet和DPN模型,下面是不同尺度的測試結果。
在這裡插入圖片描述

不同尺度的結果會有差異,但是通常都不大,因此除非模型特殊,不必太糾結與這個問題,畢竟256等於2^8,2的指數次冪,多麼經典又快意。

總結

轉載公眾號:有三AI