当前位置：首页 > 以太坊价格 > 兼具Swin和ViT的优势！可用于MAE预训练的超简单层次Transformer结构

兼具Swin和ViT的优势！可用于MAE预训练的超简单层次Transformer结构

贵州小哥3年前 (2022-07-17)以太坊价格127

©PaperWeekly 原创 · 作者 |Jason

研究方向 |计算机视觉

摘要

最近，掩蔽图像建模（MIM）为视觉 Transformer 的自监督预训练提供了一种新的方法imtoken。高效实现的一个关键思想是在整个目标网络编码器中丢弃掩蔽图像 patch 或 token，这要求编码器是普通视觉 Transformer（例如 ViT），但是分层视觉 Transformer（例如 Swin Transformer）在形成视觉输入方面具有潜在更好的特性。

在本文中，作者提出了一种新的分层视觉 Transformer HiViT（Hierarchy ViT 的缩写），它在 MIM 中既具有高效性，又具有良好的性能imtoken。关键是删除不必要的“局部单元间操作”，产生出结构简单的分层视觉 Transformer ，其中 mask-units 可以像普通视觉 Transformer 一样序列化。实验结果研究表明，HiViT 在全监督、自监督和迁移学习方面具有优势。特别是，在 ImageNet-1K 上运行 MAE 时，HiViT-B 比 ViT-B 的准确度提高了 0.6%，比 Swin-B 的速度提高了 1.9 倍，性能提高可以推广到检测和分割的下游任务。

论文标题：

HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling

论文地址：

Motivation

根据是否使用多分辨率特征图方面，目前主要有两类视觉 Transformer，即普通视觉 Transformer 和层次视觉 Transformerimtoken。虽然后者被认为可以捕获视觉信号的性质（大多数基于卷积的模型都使用了层次结构），但通常使用了一些空间局部操作（即，带有移动窗口的早期自注意）。当需要灵活操作 token 时，这些模型可能会遇到困难。一个典型的例子是掩蔽图像建模（MIM），这是一种最新的预训练视觉 Transformer 的方法——图像块的随机部分从输入中隐藏，分层模型很难确定每对 token 是否需要留下。

展开全文

本质上，这是因为层次视觉 Transformer 在 masking units 之间使用了非全局操作（例如，窗口注意）imtoken。因此，与可以序列化所有加速 token 的普通视觉 Transformer 不同，层次视觉 Transformer 必须保持二维结构，在整个编码器中保留掩蔽 token。因此，分级 Transformer 的训练速度比普通 Transformer 慢 2 倍。

在本文中，作者首先将层次视觉 Transformer 中的操作分为“单元内操作”、“全局单元间操作”和“局部单元间操作”imtoken。作者注意到，平面视觉 Transformer 仅包含“单元内操作”（即 patch 嵌入、层归一化、MLP）和“全局单元内操作”（即全局自注意力），因此可以丢弃单元的空间坐标，并且可以将单元序列化以进行高效计算，如 MAE。这就是说，对于层次视觉 Transformer 来说，是“局部单元间操作”（即，移位窗口自注意力、patch 合并）需要基于单元的空间坐标进行额外判断，所以阻碍了序列化和移除 mask 单元。

在实验中，最后一个阶段合并到主阶段（保持模型 FLOPs 不变），早期阶段的局部窗口注意被具有相同 FLOPs 的单元内多层感知器所取代imtoken。通过这些最小的修改，作者删除了层次视觉 Transformer 中所有冗余的“局部单元间操作”，其中只采用了最简单的层次结构。与普通 ViTs 相比，本文的模型只在主阶段之前添加了几个空间合并操作和 MLP 层。由此产生的结构被命名为 HiViT，该结构能够对分层视觉信号进行建模，但所有 token 都是最大程度上独立的，并保持操作的灵活性。同时，本文的 HiViT 维护 ViT 范式，与其他层次视觉 Transformer 相比，ViT 范式的实现非常简单。

基于 MIM，HiViT 的优势变得更加明显imtoken。在 800 个基于MIM的预训练阶段和 100 个微调阶段中，HiViT-B 在 ImageNet-1K 上达到了了 84.2% 的 top-1 精度，比ViT-B（使用 MAE，1600 个阶段的预训练）高出 0.6%，比 Swin-B（使用 SimMIM）高出 0.2%。更重要的是，HiViT 具有在输入阶段丢弃所有掩蔽 patch 的高效实现，因此训练速度是 SimMIM 的1.9 倍（如上图所示）。

本文的核心贡献是 HiViT，这是一种分层视觉 Transformer 结构，可用于广泛的视觉应用imtoken。特别是，由于掩蔽图像建模是一种流行的自监督学习范式，HiViT 有可能直接插入许多现有算法中，以提高其从大规模未 token 数据中学习视觉表示的有效性和效率。

方法

2.1 Preliminaries

掩蔽图像建模（MIM）是一种新兴的自监督视觉表征学习范式imtoken。流程涉及将部分 mask 的图像提供给目标模型，并训练模型进行恢复。数学上，让目标模型表示为，其中 θ 表示可学习的参数。给定训练图像 x，首先将其划分为几个 patch ，其中 M 是 patch 数。

然后，MIM 随机选择一个子集，将 ID 为的 patch（表示为）送到目标模型（也称为编码器）中，并在其上附加一个解码器，旨在恢复解码器末端的原始图像内容，无论是 tokenized 特征还是像素imtoken。如果能够解决这个问题，那么可以认为这些参数已经过良好的训练，可以提取紧凑的视觉特征。

一种适合 MIM 的高效视觉模型是 vanilla vision transformer，缩写为 ViTimtoken。在 ViT 中，每个图像块被转换成一个 token，token 通过几个 Transformer 块传播，以进行视觉特征提取。设有 L 个块，第 l 个块取 l-1 个块 token 作为输入，并输出，其中。

每个块的主要部分是自注意力，其中三个中间特征是基于，即查询、键和值，表示为，然后基于这三个中间特征进行自注意力机制imtoken。在自注意力计算之后，应用了辅助操作，包括层归一化、多层感知器、残差连接。ViT 可以适用于 MAE，其中 mask 的 token 在 encoder 中能够被丢弃，从而产生更高的建模效率。

直观地说，层次视觉 Transformer（例如，Swin Transformer）更善于捕捉多级视觉特征imtoken。它与 ViT 有三个主要区别：

2.2 HiViT: Efficient Hierarchical Transformer for MIM

在本文中，作者追求 MAE 的高效实现，即只有未掩蔽的 token 被馈入编码器——从数学上讲，模型只处理压缩的 token 列表 imtoken。将其与分层视觉 Transformer （如 Swin Transformer ）集成的主要困难在于“局部单元间操作”，这使得很难序列化 token 并放弃掩蔽的 token。为了删除它们，作者首先将掩蔽单元大小设置为主阶段的 token 大小。掩蔽单元的大小为 16×16，与ViT的恒定 token 大小对齐。然后，作者调整模型如下：

2）对于主阶段之前的操作，作者去除前两个阶段的窗口注意力imtoken。也就是说，作者删除了 Swin 的移位窗口，并且没有引入任何其他“局部单元间操作”，例如窗口注意力或卷积。作为替代方案，作者只在前两个阶段使用 MLP 块（用另一个 MLP 层代替自注意力）。令人惊讶的是，如上图所示，这种修改带来了 0.2% 的性能改进。与所示的普通 ViT 相比，派生的结构具有层次性，只需要两个 MLP 块，但在自监督/全监督学习方面具有更好的性能。

实验

作者提出了 HiViT-T/S/B 在内的三个模型，其配置如上表所示imtoken。

全监督的训练结果显示在上表中imtoken。与 ViT 模型相比，所有 HiViT 模型报告的结果均为更优的结果。HiViT-T/B 比 DeiT-S/B 模型分别高出 2.3% 和 2.0%，具有相似的 FLOPs 和更少的参数。与后续模型相比，本文的模型仍然显示出有竞争力的结果。特别是，HiViT-T/S/B 比 Swin-T/S/B 分别高出 0.9%、0.4% 和 0.3%，具有相似的复杂性和较少的参数。此外，本文的所有模型都是参数友好的。例如，与 Swin-T/S/B 模型相比，HiViT-T/S/B 的参数分别减少了 32.2%、24.4% 和 24.4%。

作者进行了全监督的消融研究，以显示本文方法的优势，结果如上表所示imtoken。可以发现，从 Swin-B 中删除最后一个阶段（第 4 阶段），同时对第 3 阶段使用全局注意力会带来 0.1% 的性能改进，这意味着最后一个阶段是不必要的。在前两个阶段用 MLP 块代替窗口注意力，将性能提高到 83.8%，这表明窗口注意力在早期阶段是不必要的。

RPE 很重要，去掉它会对性能造成约 0.3% 的损害imtoken。如果放弃前两个阶段，使用类似于普通 ViT 的 patch 嵌入方法向下采样 16×，但将块数增加到 24，性能将从 83.5% 下降到 82.9%。然而，这仍然高于普通 ViT 的 81.8%，这意味着层次化输入模块很重要，更深层次的结构比浅层次的结构要好得多。

作者使用 linear probing 度量对预训练模型进行评估，除了可学习的分类器层之外，编码器的所有参数都被冻结imtoken。从上表中，我们可以看到，HiViT-B 模型取得了 71.3% 的良好效果，与所有基于 MIM 的方法相比，这是最好的性能。

HiViT 只需要未掩蔽的 token 作为输入，这样本文的方法在 MIM 预训练期间就可以享受效率imtoken。如上表所示，作者报告了 MAE（ViT-B）、SimMIM（Swin-B）和本文的 HiViT-B 在不同输入大小下的预训练速度。所有结果代表 8×V100 GPU 上 1 个 epoch 的预训练时间（分钟）。由于输入图像为 192×192，HiViT-B 每 epoch 仅需 7.4 分钟，比 SimMIM 快约 1.9 倍，与MAE相当。当输入为 224×224 时，HiViT-B 大约需要 9.7 分钟，比 SimMIM 快 1.9× 与 MAE 相当。

上表展示了本文消融实验的结果，默认设置（#0）使用 2−2−20 块设置，可实现 83.8% 的性能imtoken。减少第 1、2 阶段的块数，增加第 3 阶段（#1）的块数，可以带来更多的参数和更好的性能，达到 83.9%，这与使用 Swin-B 进行 800 个 epoch 的预训练得出的 SimMIM 结果（84.0%）相当，但 71.9M 的参数仍然远低于 Swin-B 的 87.8M。

删除第 1 阶段（#3）或第 2 阶段（#2）都会对性能造成损害，即 83.6% 和 83.7%，这表明，主阶段之前的层次结构非常重要，并带来了性能改进imtoken。此外，#3 的结果低于 #2，表明第一阶段似乎比第二阶段更重要。去除前两个阶段的结果为 83.6%，这进一步验证了层次结构的重要性。

作者将相同的 CAE 设置传输到 MS-COCO 中测试本文的模型，选择第 5、9、13、19 个块作为后续 FPN 网络的输入imtoken。如上表所示，本文的方法达到了 SOTA 的性能。在 ADE20K 数据集上，MoCo-v3 报告了 300 个 epoch 的预训练 47.3% 的 mIoU 结果，低于本文的 48.3%。BEiT、CAE 和 MAE 报告的性能分别为 47.1%、48.8% 和 48.1%。通过 1600 个 epoch 的预训，MAE 达到了 48.1% 的 mIoU。与这些最先进的方法相比，HiViT-B 通过 800 个 epoch 的预训练，达到了 48.3% 的结果，这高于除 CAE 之外的所有方法，但是 CAE 使用 DALLE 的 tokenizer。

总结

本文提出了一种层次视觉 Transformer HiViTimtoken。从 Swin Transformers 开始，作者移除了在主阶段跨越 token 边界的冗余操作，并表明此类修改不会造成伤害，而会略微提高模型在全监督和自监督视觉表示学习中的性能。HiViT 在与掩蔽图像建模相结合方面显示出明显的优势，可以直接移植 ViT 上的高效实现，将训练速度提高近一倍。

尽管在实验中观察到了改进，但本文的方法仍有一些局限性imtoken。最重要的一点在于掩蔽单元的大小是固定的，这意味着需要选择一个“主阶段”。第三阶段的 Swin Transformer 提供了大多数参数和计算，因此自然会选择它，然而，在不存在主要阶段的情况下，该方法可能会遇到困难。

更多阅读

# 投稿通道#

让imtoken你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人imtoken。

总有一些你不认识的人，知道你想知道的东西imtoken。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等imtoken。我们的目的只有一个，让知识真正流动起来。

? 稿件基本要求：

• 文章确系个人原创作品imtoken，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown格式撰写imtoken，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权imtoken，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

? 投稿通道：