帶掩碼的自編碼器MAE詳解和Pytorch程式碼實現

阿新 • • 發佈：2021-12-12

監督學習是訓練機器學習模型的傳統方法，它在訓練時每一個觀察到的資料都需要有標註好的標籤。如果我們有一種訓練機器學習模型的方法不需要收集標籤，會怎麼樣?如果我們從收集的相同資料中提取標籤呢?這種型別的學習演算法被稱為自監督學習。這種方法在自然語言處理中工作得很好。一個例子是BERT¹，谷歌自2019年以來一直在其搜尋引擎中使用BERT¹。不幸的是，對於計算機視覺來說，情況並非如此。

Facebook AI的kaiming大神等人提出了一種帶掩碼自編碼器(MAE)²，它基於(ViT)³架構。他們的方法在ImageNet上的表現要好於從零開始訓練的VIT。在本文中，我們將深入研究他們的方法，並瞭解如何在程式碼中實現它。

帶掩碼自編碼器(MAE)

對輸入影象的patches進行隨機掩碼，然後重建缺失的畫素。MAE基於兩個核心設計。首先，開發了一個非對稱的編碼器-解碼器架構，其中編碼器僅對可見的patches子集(沒有掩碼的tokens)進行操作，同時還有一個輕量級的解碼器，可以從潛在表示和掩碼tokens重建原始影象。其次，發現對輸入影象進行高比例的掩碼，例如75%，會產生有意義的自監督任務。將這兩種設計結合起來，能夠高效地訓練大型模型：加快模型訓練速度(3倍甚至更多)並提高精度。

此階段稱為預訓練，因為 MAE 模型稍後將用於下游任務，例如影象分類。模型在pretext上的表現在自監督中並不重要，這些任務的重點是讓模型學習一個預期包含良好語義的中間表示。在預訓練階段之後，解碼器將被多層感知器 (MLP) 頭或線性層取代，作為分類器輸出對下游任務的預測。

模型架構

編碼器

編碼器是 ViT。它接受張量形狀為 (batch_size, RGB_channels, height, width) 的影象。通過執行線性投影為每個Patch獲得嵌入，這是通過 2D 卷積層來完成。然後張量在最後一個維度被展平（壓扁），變成 (batch_size, encoder_embed_dim, num_visible_patches)，並轉置為形狀（batch_size、num_visible_patches、encoder_embed_dim）的張量。

完整程式碼請見原文：帶掩碼的自編碼器MAE詳解和Pytorch程式碼實現

帶掩碼的自編碼器MAE詳解和Pytorch程式碼實現

帶掩碼自編碼器(MAE)

模型架構

帶掩碼的自編碼器MAE詳解和Pytorch程式碼實現

貝葉斯網路的D-separation詳解和Python程式碼實現

三種超引數優化方法詳解，以及程式碼實現

Django自帶的加密演算法及加密模組詳解

flask框架自定義url轉換器操作詳解

Keras搭建自編碼器操作

基於圖嵌入的高斯混合變分自編碼器的深度聚類(Deep Clustering by Gaussian Mixture Variational Autoencoders with Graph Embedding, DGG)

在PyTorch中使用深度自編碼器實現影象重建

pytorch-自編碼器與變分自編碼器-有損影象壓縮

tensorflow實現簡單的自編碼器

基於RNN自編碼器的離群點檢測

[tensorflow2.0]採用自定義層和模型在minist資料集上實現VAE(變分自編碼器)

【異常檢測】DAGMM：結合深度自編碼器器和GMM的端到端無監督網路（二）：程式碼實戰（PyTorch）

SpringBoot 預設json解析器詳解和欄位序列化自定義

#MNIST資料集上條件變分自編碼器#程式碼

多層自編碼器手寫版

GAN 並不是你所需要的全部：從AE到VAE的自編碼器全面總結

深度學習專案示例使用自編碼器進行模糊影象修復

Pytest-ordering使用者自定義用例執行順序,skip/skipif裝飾器用法詳解(三)

【學術】一文搞懂自編碼器及其用途（含程式碼示例）

帶掩碼的自編碼器MAE詳解和Pytorch程式碼實現

帶掩碼自編碼器(MAE)

模型架構

相關推薦