当前位置:首页 > 以太坊价格 > ​兼具Swin和ViT的优势!可用于MAE预训练的超简单层次Transformer结构

​兼具Swin和ViT的优势!可用于MAE预训练的超简单层次Transformer结构

贵州小哥3年前 (2022-07-17)以太坊价格127

©PaperWeekly 原创 · 作者 |Jason

研究方向 |计算机视觉

摘要

最近,掩蔽图像建模(MIM)为视觉 Transformer 的自监督预训练提供了一种新的方法imtoken。高效实现的一个关键思想是在整个目标网络编码器中丢弃掩蔽图像 patch 或 token,这要求编码器是普通视觉 Transformer(例如 ViT),但是分层视觉 Transformer(例如 Swin Transformer)在形成视觉输入方面具有潜在更好的特性。

在本文中,作者提出了一种新的分层视觉 Transformer HiViT(Hierarchy ViT 的缩写),它在 MIM 中既具有高效性,又具有良好的性能imtoken。关键是删除不必要的“局部单元间操作”,产生出结构简单的分层视觉 Transformer ,其中 mask-units 可以像普通视觉 Transformer 一样序列化。实验结果研究表明,HiViT 在全监督、自监督和迁移学习方面具有优势。特别是,在 ImageNet-1K 上运行 MAE 时,HiViT-B 比 ViT-B 的准确度提高了 0.6%,比 Swin-B 的速度提高了 1.9 倍,性能提高可以推广到检测和分割的下游任务。

论文标题:

HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling

论文地址:

Motivation

根据是否使用多分辨率特征图方面,目前主要有两类视觉 Transformer,即普通视觉 Transformer 和层次视觉 Transformerimtoken。虽然后者被认为可以捕获视觉信号的性质(大多数基于卷积的模型都使用了层次结构),但通常使用了一些空间局部操作(即,带有移动窗口的早期自注意)。当需要灵活操作 token 时,这些模型可能会遇到困难。一个典型的例子是掩蔽图像建模(MIM),这是一种最新的预训练视觉 Transformer 的方法——图像块的随机部分从输入中隐藏,分层模型很难确定每对 token 是否需要留下。

展开全文

本质上,这是因为层次视觉 Transformer 在 masking units 之间使用了非全局操作(例如,窗口注意)imtoken。因此,与可以序列化所有加速 token 的普通视觉 Transformer 不同,层次视觉 Transformer 必须保持二维结构,在整个编码器中保留掩蔽 token。因此,分级 Transformer 的训练速度比普通 Transformer 慢 2 倍。

在本文中,作者首先将层次视觉 Transformer 中的操作分为“单元内操作”、“全局单元间操作”和“局部单元间操作”imtoken。作者注意到,平面视觉 Transformer 仅包含“单元内操作”(即 patch 嵌入、层归一化、MLP)和“全局单元内操作”(即全局自注意力),因此可以丢弃单元的空间坐标,并且可以将单元序列化以进行高效计算,如 MAE。这就是说,对于层次视觉 Transformer 来说,是“局部单元间操作”(即,移位窗口自注意力、patch 合并)需要基于单元的空间坐标进行额外判断,所以阻碍了序列化和移除 mask 单元。

在实验中,最后一个阶段合并到主阶段(保持模型 FLOPs 不变),早期阶段的局部窗口注意被具有相同 FLOPs 的单元内多层感知器所取代imtoken。通过这些最小的修改,作者删除了层次视觉 Transformer 中所有冗余的“局部单元间操作”,其中只采用了最简单的层次结构。与普通 ViTs 相比,本文的模型只在主阶段之前添加了几个空间合并操作和 MLP 层。由此产生的结构被命名为 HiViT,该结构能够对分层视觉信号进行建模,但所有 token 都是最大程度上独立的,并保持操作的灵活性。同时,本文的 HiViT 维护 ViT 范式,与其他层次视觉 Transformer 相比,ViT 范式的实现非常简单。

基于 MIM,HiViT 的优势变得更加明显imtoken。在 800 个基于MIM的预训练阶段和 100 个微调阶段中,HiViT-B 在 ImageNet-1K 上达到了了 84.2% 的 top-1 精度,比ViT-B(使用 MAE,1600 个阶段的预训练)高出 0.6%,比 Swin-B(使用 SimMIM)高出 0.2%。更重要的是,HiViT 具有在输入阶段丢弃所有掩蔽 patch 的高效实现,因此训练速度是 SimMIM 的1.9 倍(如上图所示)。

本文的核心贡献是 HiViT,这是一种分层视觉 Transformer 结构,可用于广泛的视觉应用imtoken。特别是,由于掩蔽图像建模是一种流行的自监督学习范式,HiViT 有可能直接插入许多现有算法中,以提高其从大规模未 token 数据中学习视觉表示的有效性和效率。

方法

2.1 Preliminaries

掩蔽图像建模(MIM)是一种新兴的自监督视觉表征学习范式imtoken。流程涉及将部分 mask 的图像提供给目标模型,并训练模型进行恢复。数学上,让目标模型表示为 ,其中 θ 表示可学习的参数。给定训练图像 x,首先将其划分为几个 patch ,其中 M 是 patch 数。

然后,MIM 随机选择一个子集 ,将 ID 为 的 patch(表示为 )送到目标模型 (也称为编码器)中,并在其上附加一个解码器,旨在恢复解码器末端的原始图像内容,无论是 tokenized 特征还是像素imtoken。如果 能够解决这个问题,那么可以认为这些参数已经过良好的训练,可以提取紧凑的视觉特征。

一种适合 MIM 的高效视觉模型是 vanilla vision transformer,缩写为 ViTimtoken。在 ViT 中,每个图像块被转换成一个 token,token 通过几个 Transformer 块传播,以进行视觉特征提取。设有 L 个块,第 l 个块取 l-1 个块 token 作为输入,并输出 ,其中 。

每个块的主要部分是自注意力,其中三个中间特征是基于 ,即查询、键和值,表示为 ,然后基于这三个中间特征进行自注意力机制imtoken。在自注意力计算之后,应用了辅助操作,包括层归一化、多层感知器、残差连接。ViT 可以适用于 MAE,其中 mask 的 token 在 encoder 中能够被丢弃,从而产生更高的建模效率。

直观地说,层次视觉 Transformer(例如,Swin Transformer)更善于捕捉多级视觉特征imtoken。它与 ViT 有三个主要区别:

2.2 HiViT: Efficient Hierarchical Transformer for MIM

在本文中,作者追求 MAE 的高效实现,即只有未掩蔽的 token 被馈入编码器——从数学上讲,模型只处理压缩的 token 列表 imtoken。将其与分层视觉 Transformer (如 Swin Transformer )集成的主要困难在于“局部单元间操作”,这使得很难序列化 token 并放弃掩蔽的 token。为了删除它们,作者首先将掩蔽单元大小设置为主阶段的 token 大小。掩蔽单元的大小为 16×16,与ViT的恒定 token 大小对齐。然后,作者调整模型如下:

2)对于主阶段之前的操作,作者去除前两个阶段的窗口注意力imtoken。也就是说,作者删除了 Swin 的移位窗口,并且没有引入任何其他“局部单元间操作”,例如窗口注意力或卷积。作为替代方案,作者只在前两个阶段使用 MLP 块(用另一个 MLP 层代替自注意力)。令人惊讶的是,如上图所示,这种修改带来了 0.2% 的性能改进。与所示的普通 ViT 相比,派生的结构具有层次性,只需要两个 MLP 块,但在自监督/全监督学习方面具有更好的性能。

实验

作者提出了 HiViT-T/S/B 在内的三个模型,其配置如上表所示imtoken。

全监督的训练结果显示在上表中imtoken。与 ViT 模型相比,所有 HiViT 模型报告的结果均为更优的结果。HiViT-T/B 比 DeiT-S/B 模型分别高出 2.3% 和 2.0%,具有相似的 FLOPs 和更少的参数。与后续模型相比,本文的模型仍然显示出有竞争力的结果。特别是,HiViT-T/S/B 比 Swin-T/S/B 分别高出 0.9%、0.4% 和 0.3%,具有相似的复杂性和较少的参数。此外,本文的所有模型都是参数友好的。例如,与 Swin-T/S/B 模型相比,HiViT-T/S/B 的参数分别减少了 32.2%、24.4% 和 24.4%。

作者进行了全监督的消融研究,以显示本文方法的优势,结果如上表所示imtoken。可以发现,从 Swin-B 中删除最后一个阶段(第 4 阶段),同时对第 3 阶段使用全局注意力会带来 0.1% 的性能改进,这意味着最后一个阶段是不必要的。在前两个阶段用 MLP 块代替窗口注意力,将性能提高到 83.8%,这表明窗口注意力在早期阶段是不必要的。

RPE 很重要,去掉它会对性能造成约 0.3% 的损害imtoken。如果放弃前两个阶段,使用类似于普通 ViT 的 patch 嵌入方法向下采样 16×,但将块数增加到 24,性能将从 83.5% 下降到 82.9%。然而,这仍然高于普通 ViT 的 81.8%,这意味着层次化输入模块很重要,更深层次的结构比浅层次的结构要好得多。

作者使用 linear probing 度量对预训练模型进行评估,除了可学习的分类器层之外,编码器的所有参数都被冻结imtoken。从上表中,我们可以看到,HiViT-B 模型取得了 71.3% 的良好效果,与所有基于 MIM 的方法相比,这是最好的性能。

HiViT 只需要未掩蔽的 token 作为输入,这样本文的方法在 MIM 预训练期间就可以享受效率imtoken。如上表所示,作者报告了 MAE(ViT-B)、SimMIM(Swin-B)和本文的 HiViT-B 在不同输入大小下的预训练速度。所有结果代表 8×V100 GPU 上 1 个 epoch 的预训练时间(分钟)。由于输入图像为 192×192,HiViT-B 每 epoch 仅需 7.4 分钟,比 SimMIM 快约 1.9 倍,与MAE相当。当输入为 224×224 时,HiViT-B 大约需要 9.7 分钟,比 SimMIM 快 1.9× 与 MAE 相当。

上表展示了本文消融实验的结果,默认设置(#0)使用 2−2−20 块设置,可实现 83.8% 的性能imtoken。减少第 1、2 阶段的块数,增加第 3 阶段(#1)的块数,可以带来更多的参数和更好的性能,达到 83.9%,这与使用 Swin-B 进行 800 个 epoch 的预训练得出的 SimMIM 结果(84.0%)相当,但 71.9M 的参数仍然远低于 Swin-B 的 87.8M。

删除第 1 阶段(#3)或第 2 阶段(#2)都会对性能造成损害,即 83.6% 和 83.7%,这表明,主阶段之前的层次结构非常重要,并带来了性能改进imtoken。此外,#3 的结果低于 #2,表明第一阶段似乎比第二阶段更重要。去除前两个阶段的结果为 83.6%,这进一步验证了层次结构的重要性。

作者将相同的 CAE 设置传输到 MS-COCO 中测试本文的模型,选择第 5、9、13、19 个块作为后续 FPN 网络的输入imtoken。如上表所示,本文的方法达到了 SOTA 的性能。在 ADE20K 数据集上,MoCo-v3 报告了 300 个 epoch 的预训练 47.3% 的 mIoU 结果,低于本文的 48.3%。BEiT、CAE 和 MAE 报告的性能分别为 47.1%、48.8% 和 48.1%。通过 1600 个 epoch 的预训,MAE 达到了 48.1% 的 mIoU。与这些最先进的方法相比,HiViT-B 通过 800 个 epoch 的预训练,达到了 48.3% 的结果,这高于除 CAE 之外的所有方法,但是 CAE 使用 DALLE 的 tokenizer。

总结

本文提出了一种层次视觉 Transformer HiViTimtoken。从 Swin Transformers 开始,作者移除了在主阶段跨越 token 边界的冗余操作,并表明此类修改不会造成伤害,而会略微提高模型在全监督和自监督视觉表示学习中的性能。HiViT 在与掩蔽图像建模相结合方面显示出明显的优势,可以直接移植 ViT 上的高效实现,将训练速度提高近一倍。

尽管在实验中观察到了改进,但本文的方法仍有一些局限性imtoken。最重要的一点在于掩蔽单元的大小是固定的,这意味着需要选择一个“主阶段”。第三阶段的 Swin Transformer 提供了大多数参数和计算,因此自然会选择它,然而,在不存在主要阶段的情况下,该方法可能会遇到困难。

更多阅读

# 投 稿 通 道#

让imtoken你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢? 答案就是:你不认识的人imtoken。

总有一些你不认识的人,知道你想知道的东西imtoken。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是 最新论文解读,也可以是 学术热点剖析、 科研心得或 竞赛经验讲解等imtoken。我们的目的只有一个,让知识真正流动起来。

? 稿件基本要求:

• 文章确系个人 原创作品imtoken,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown格式撰写imtoken,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权imtoken,并将为每篇被采纳的原创首发稿件,提供 业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

? 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信)imtoken,以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信( pwbot02)快速投稿imtoken,备注:姓名-投稿

现在imtoken,在 「知乎」也能找到我们了

进入知乎首页搜索 「PaperWeekly」

扫描二维码推送至手机访问。

版权声明:本文由贵州小哥发布,如需转载请注明出处。

本文链接:https://xiaogecar.com/coin/664.html

分享给朋友:

“​兼具Swin和ViT的优势!可用于MAE预训练的超简单层次Transformer结构” 的相关文章

普通人在元宇宙有哪些机会?当下普通人如何参与元宇宙

普通人在元宇宙有哪些机会?当下普通人如何参与元宇宙

在元宇宙内我们能做什么?元宇宙里到底有哪些机会?其实有一个比较容易解释的方式元宇宙,那就是元宇宙web3.0,它是虚拟与现实结合的一个情景感受,其实元宇宙同样有很多地方是脱离不了现实的,这样讲大家是不是就比较容易理解呢? 列举一个车的例子,比如一家汽车品牌在当下通过集团高层讨论,最终确定在上海建一个...

行情来势″熊熊″,加密货币前景到底如何?

行情来势″熊熊″,加密货币前景到底如何?

最近加密市场不断下行,市场情绪低靡,大多数山寨币已显颓势,尽管主流BTC和ETH已经腰斩,但仍有投资者对其繁荣有信心加密货币。在此背景下,有分析认为现在是投资的好时机,同时也有极端反对者认为市场将很快下行。也有技术分析师指出,市场会在短暂反弹后出现更多疲软,随后迎来更大的上涨。众所纷纭,那么现在是投...

【我要上电视】小号炼妖更容易逆袭?新出150双蓝字无级别项链

【我要上电视】小号炼妖更容易逆袭?新出150双蓝字无级别项链

LLLLL投稿 LLLLL投稿 小号炼妖永远的神非小号,9技能童子+8技能净台广目回炉,直接炸出13技能翻页净台童子 这么高的资质成长应该能卖上个好价吧? 出完13技能净台童子换了个小号继续冲刺非小号,结果竟然直接炸出了14技能成就 玄学这种东西啊,宁可信其有不可信其无!最近这么多狗托都是用小...

OP 估值多少合理 从 Optimism 治理机制与经济金融模型谈起

OP 估值多少合理 从 Optimism 治理机制与经济金融模型谈起

给这两天沸沸扬扬 OP 开个话题imtoken。我发现市场上大家都在说对 OP 估值,但是估值之前要想清楚 OP 整个的底层逻辑,比如 OP 代币的价值到底是什么,这种价值怎么体现,多少能 price in 等等,我想简单探讨一下。先从 OP 治理模型开始(毕竟当下看到 OPtoken 只有 gov...

面试官:“冷房冷炕冷被窝”的下联是什么?姑娘智答,被录取

面试官:“冷房冷炕冷被窝”的下联是什么?姑娘智答,被录取

面试是进入职场的第一步,也是进入职场的毕竟之路,对于大多数职场的人来说,面试早已经是司空见惯,可是对于刚刚大学毕业的大学生来说,面试的时候还是会紧张,甚至因为紧张而一时无法做出一个很好的回答冷钱包。 面试官:“冷房冷炕冷被窝”的下联是什么?姑娘智答冷钱包,被录取 而有的企业为了给自己的公司挑选适合自...

美图公司炒币亏损超3亿元 上半年净亏损预增逾99.6%

美图公司炒币亏损超3亿元 上半年净亏损预增逾99.6%

美图公司炒币亏损超3亿元 上半年净亏损预增逾99.6% 7月3日,美图公司在港交所发布最新公告,公布了购买加密货币的减值情况炒币。截至2022年6月30日,预期美图可能录得约人民币2.749亿元至人民币3.499亿元之间的净亏损,较去年同期净亏损增加约99.6%至154.1%。净亏损预计增加的主要...