【ICCV2021】Tokens-to-Token ViT: Training Vision Transformers From Scratch on ImageNet

阿新 • • 發佈：2022-03-27

部分內容來自於 GiantPandaCV 的文章

論文：https://openaccess.thecvf.com/content/ICCV2021/papers/Yuan_Tokens-to-Token_ViT_Training_Vision_Transformers_From_Scratch_on_ImageNet_ICCV_2021_paper.pdf

程式碼：https://github.com/yitu-opensource/T2T-ViT

1、Motivation

作者指出VIT的不足之處：

直接將圖片分塊展開成一維向量不利於對圖片結構資訊（如邊緣，線條）建模
冗餘的Attention模組限制了特徵表達，並帶來運算負擔

因此，作者提出了 Token to Token Transformer （T2T），採用類似CNN視窗的方式，將相鄰的 token 聚合，有助於建模區域性特徵。

2、Method

T2T 的流程如下圖所示，將輸入的 token 通過 reshape 操作轉化為二維，然後利用 unfold 操作，屬於同一個區域性視窗的 token 拼接成一個更長的 token，再送入下一層。

Unfold 操作其實是卷積中的 img2col 操作，將卷積視窗的向量，重排成一個列向量，示意圖如下所示：

網路整體架構如下圖所示，先經過2次Tokens to Token操作，最後給token加入用於影象分類的cls token，並給上位置編碼（position embedding），送入到 VIT backbone 當中。

更多可以檢視 Panda 的文章，程式碼講解的也非常詳細。

【ICCV2021】Tokens-to-Token ViT: Training Vision Transformers From Scratch on ImageNet

部分內容來自於 GiantPandaCV 的文章論文：https://openaccess.thecvf.com/content/ICCV2021/papers/Yuan_Tokens-to-Token_ViT_Training_Vision_Transformers_From_Scratch_on_ImageNet_ICCV_2021_paper.pdf

【CF1139D】Steps to One（期望+莫比烏斯反演）

點此看題面大致題意：一個空數列，每次隨機加入一個\\(1\\sim m\\)的元素，直至數列中所有元素\\(gcd=1\\)。求期望長度。

【maven】Failed to execute goal org.apache.maven.plugins:maven-site-plugin:3.3:site (default-site)

問題描述 site一點選就報錯，如下 Failed to execute goal org.apache.maven.plugins:maven-site-plugin:3.3:site (default-site)

【CF1139D】Steps to One

題目題目連結：https://codeforces.com/problemset/problem/1139/D 給一個數列，每次隨機選一個 \\(1\\) 到 \\(n\\) 之間的數加在數列末尾，數列中所有數的 \\(\\gcd=1\\) 時停止，求期望長度。

【轉載】cookie,session,token

cookie，session傻傻分不清楚？做了這麼多年測試，還是分不清什麼是cookie，什麼是session？很正常，很多初級開發工程師可能到現在都搞不清什麼是session，cookie相對來說會簡單很多。

【Lintcode】1535. To Lower Case

技術標籤：# 棧、佇列、串及其他資料結構字串leetcode演算法題目地址： https://www.lintcode.com/problem/to-lower-case/description

【git】failed to merge submodule ...

資料來源 (1) https://git-scm.com/book/en/v2/Git-Tools-Submodules 1.原文 Merging Submodule Changes

【AAAI2022】ShiftVIT: When Shift Operation Meets Vision Transformer

論文：【AAAI2022】When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism

How to create a custom Ubuntu live from scratch

build system- the computer environment running the build scripts that generate the ISO. live system- the computer environment that runs from the live OS, generated by abuild system. This may also be

【kubeadm初始化報錯】failed to run Kubelet: misconfiguration: kubelet cgroup driver: "cgroupfs" is different from docker cgroup driver: "systemd"

復現場景環境系統：Centos7 kubernetes：1.18.5 docker：19.03.9 復現步驟 1、通過 yum 或 rpm 安裝 kubelet kubectl kubeadm，並 systemctl enable --now kubelet

【ICCV2021】Tokens-to-Token ViT: Training Vision Transformers From Scratch on ImageNet

1、Motivation

2、Method

【ICCV2021】Tokens-to-Token ViT: Training Vision Transformers From Scratch on ImageNet

【CF1139D】Steps to One（期望+莫比烏斯反演）

【maven】Failed to execute goal org.apache.maven.plugins:maven-site-plugin:3.3:site (default-site)

【CF1139D】Steps to One

【轉載】cookie,session,token

【Lintcode】1535. To Lower Case

【git】failed to merge submodule ...

【AAAI2022】ShiftVIT: When Shift Operation Meets Vision Transformer

How to create a custom Ubuntu live from scratch

【kubeadm初始化報錯】failed to run Kubelet: misconfiguration: kubelet cgroup driver: "cgroupfs" is different from docker cgroup driver: "systemd"

【k8s】etcd叢集took too long to execute慢日誌告警問題分析

【DataBase】SQL50 Training 50題訓練

【解決】Error from server (ServiceUnavailable): the server is currently unable to handle the request

【Java】解決javamail ssl 測試unable to find valid certification path to requested target

【leetcode】1525. Number of Good Ways to Split a String

【leetcode】1541. Minimum Insertions to Balance a Parentheses String

Fatal error: Call to undefined function make_hash() in /dede/sys_info.php on line 201解決方案步驟【親測可用】...

【優達學城測評】Intro to XLRD

【2019】A Game-Theoretic Approach to Computation Offloading in Satellite Edge Computing

【leetcode】1576. Replace All ?'s to Avoid Consecutive Repeating Characters

【ICCV2021】Tokens-to-Token ViT: Training Vision Transformers From Scratch on ImageNet

1、Motivation

2、Method

相關推薦