影象資料增強的若干方法
阿新 • • 發佈:2018-11-07
影象分類的資料集非常大。儘管如此,依然需要資料增強來提高模型泛化能力。資料增強一般包括重新縮放影象的隨機裁剪、隨機水平翻轉、隨機 RGB 顏色與亮度變換等技術。此外,也存在不同的縮放、裁剪等技術(即單尺度訓練 vs 多尺度訓練)。在測試階段進行多裁剪評估也是經常使用的途徑,不過該方案的計算成本更昂貴且效能改進有限。請注意,隨機縮放和裁剪的目標是在不同尺寸和位置上學習物件的重要特徵。
Keras 並未實現所有資料增強技術的開箱即用,但可以通過 ImageDataGenerator 模組的預處理技術輕鬆實現。Andrew Howard 提出的資料增強技術更深入地解釋了這些關鍵性的方法,具體參見文章 Some Improvements on Deep Convolutional Neural Network Based Image Classification
VGG的資料增強
- 訓練階段
使用了Multi-Scale的方法做資料增強,將原始圖片縮放到不同的尺寸S,然後再隨機裁剪224×224的圖片 - 測試階段
也採用了Multi-Scale的方法,將影象scale到一個尺寸Q,並將圖片輸入卷積網路計算,然後再最後一個卷積層使用滑窗的方式進行分類預測,將不同視窗的分類結果平均,再將不同尺寸Q的結果平均,得到最後的結果。這樣可以提高資料的利用率和預測準確率。