為什麼影象分類任務要從256256中裁剪出224224

阿新 • • 發佈：2020-10-21

為什麼很多模型將輸入縮放到256*256然後裁剪成224×224呢？

文章目錄

前言
- 首先我們要知道crop的目標是用於做資料增強。
總結

前言

我們之前已經回答過為什麼影象分類網路輸入大小是224*224，可以檢視往期解答，【AI-1000問】為什麼深度學習影象分類的輸入多是224*224。

在這裡插入圖片描述
首先要回顧一下為什麼分類任務的輸入影象大小常常是224*224。

分類任務輸出特徵圖如果尺寸太小，那麼資訊就丟失太嚴重，如果尺寸太大，資訊的抽象層次不夠高，計算量也更大，7×7的大小是一個很好的平衡。影象從大解析度降低到小解析度，降低倍數通常是2的指數次方，所以影象的輸入一定是7*2的指數次方。以ImageNet為代表的大多數分類資料集，影象的長寬在300解析度左右。

所以要找一個7×2的指數次方，並且在300左右的解析度作為輸入，其中7×2的4次方=7×16=112，7×2的5次方等於7*32=224，7×2的6次方=448，與300最接近的就是224了。

接下來我們再思考為什麼通常是將影象resize到256*256。

首先我們要知道crop的目標是用於做資料增強。

當我們描述一個數據集的大小，通常是以數量級來衡量，而資料增強也比例外，我們的目標是將資料集增長為原來的幾個數量級以上，即擴充10，100，1000倍等。

輸入為N×N的大圖，crop輸出為M×M的小圖，可以實現(N-M)×(N-M)的資料集擴充倍數。對應擴充10，100，1000，10000倍，N-M約為3，10，32，100，因為最終結果圖是224×224，所以原圖就應該是227×227，234×234，256×256，324×324，很明顯從256×256這個尺度進行裁剪，能夠保證主體不至於太小或者太大，如前面圖中紅色框。

那不使用256*256使用其他的尺寸如何呢？在比賽刷榜中，經常使用多尺度模型測試，即使用不同尺度的輸入圖進行裁剪然後進行結果融合，該作者曾經在Place365資料集上訓練過ResNet和DPN模型，下面是不同尺度的測試結果。
在這裡插入圖片描述

不同尺度的結果會有差異，但是通常都不大，因此除非模型特殊，不必太糾結與這個問題，畢竟256等於2^8，2的指數次冪，多麼經典又快意。

總結

轉載公眾號：有三AI

為什麼影象分類任務要從256256中裁剪出224224

文章目錄

前言

首先我們要知道crop的目標是用於做資料增強。

總結

為什麼影象分類任務要從256256中裁剪出224224

真香！使用飛槳PaddlePaddle2.0高層API高效完成基於VGG16的影象分類任務

ImageNet影象分類任務（讀取本地檔案）

單個神經元也能實現 DNN 功能，影象分類任務準確率可達 98%，登上 Nature 子刊

曝微軟正將 Win10 「工作列」從 Explorer.exe 中移出：響應將更流暢穩定

8.從字串2中找出字串1中所有字元

金芝號碼提取整理助手：從excel表格中篩選出所有的手機號，怎麼篩選表格裡的手機號碼

淺談keras中自定義二分類任務評價指標metrics的方法以及程式碼

PyTorch中基於TPU的FastAI多類影象分類

影象分類在乳腺癌檢測中的應用

如何在PyTorch和TensorFlow中訓練影象分類模型

在jupyter Notebook中使用PyTorch中的預訓練模型ResNet進行影象分類

qt中從選擇的資料夾中篩選出想要的字尾檔案（過濾）

多分類任務中不同隱藏層層數對實驗結果的影響

多分類任務中不同隱藏單元個數對實驗結果的影響

分類任務中效能度量及程式碼

多分類任務中不同隱藏層層數對實驗結果的影響（使用GPU）

深度學習中的動手實踐:在CIFAR-10上進行影象分類

影象分類中混淆矩陣精度驗證法中的幾個指標說明

從Oracle資料庫中讀取資料自動生成INSERT語句的方法

為什麼影象分類任務要從256*256中裁剪出224*224

文章目錄

前言

首先我們要知道crop的目標是用於做資料增強。

總結

相關推薦

為什麼影象分類任務要從256256中裁剪出224224