腾讯提出Shuffle Transformer:重新思考视觉Transforme( 二 )


-
将空域置换引入到WMSA中可以构建跨窗口链接 , 尤其是长距离跨窗口链接 。然而 , 当处理高分辨率图像时存在一个潜在问题:当图像尺寸远大于窗口尺寸时会产生网络问题 。
幸运的是 , 有这样几种方法通过增强近邻窗口链接缓解该问题 。
【腾讯提出Shuffle Transformer:重新思考视觉Transforme】考虑到高效性 , 我们在WMSA与MLP之间插入了深度卷积 。深度卷积的尺寸与窗口尺寸相同 , 该操作可以提升近邻窗口的信息流动并缓解网络问题 。
Block
Block(STB)包含置换MSA( MHSA)、近邻窗口连接模块(NWC)以及MLP模块 。为引入跨窗口连接 , 同时保持非重叠窗口的高效计算 , 我们提出了一种策略:在连续STB中对WMSA与-WMSA进行交替执行 , 见下图 。
从上图可以看到:第一个模块采用常规窗口划分策略 , 而第二个模块采用带空域置换的WMSA 。从外 , 在每个模块内部添加NWC以增强近邻窗口的连接 。因此 , 所提STB可以构建丰富的跨窗口连接并增强表达能力 。最后 , 连续的STB计算流程如下:
注:为更好的处理2D输入 , 我们采用替换了STB中的;同时 , 线性性层替换为 卷积 。
and
上图给出了所提 的架构示意图 , 注:此为tiny版本 。包含一个词嵌入层、多个STB以及词合并层 。在我们的实现中 , 我们采用两个堆叠卷积作为词嵌入层 。为生成分层表达 , 我们采用了=2 , =2的卷积作为词合并层以减少词数量 。
为公平对比 , 我们参考了Swin的配置 。我们所构建的基线模型-B具有与Swin-B/ViTB/DeiT-B相当的模型大小以及计算复杂度 。我们同时还引入了-T与-S , 它们分别与Swin-T、Swin-S相当 。窗口尺寸默认为7 , 每个头的query维度为32 , 每个MLP的扩展层为。本文所提模型的超参分别如下:
为展示所提方案的有效性 , 我们在分类、语义分割以及COCO实例分割等任务上进行了充分的实验对比 。
on
上表对比了不同方案在上的性能 , 从中可以看到:
on
上表对比了不同方案在语义分割方面的性能 , 从中可以看到:
on COCO
上表对比了不同方案在COCO实例分割方面的性能 , 从中可以看到: