LUM-ViT:适用于带宽有限的光信号采集的可学习欠采样掩膜视觉变换器

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了HiViT,一种高效且性能良好的分层视觉转换器。实验证明,HiViT-B在ImageNet-1K上相对于ViT-B的准确率提高了0.6%,比Swin-B快了1.9倍,并在检测和分割等下游任务中提高了泛化性能。

🎯

关键要点

  • 提出了一种名为 HiViT 的分层视觉转换器设计。
  • HiViT 在 MIM 中具有高效性和良好的性能。
  • 通过关闭 Swim Transformer 的局部对单元操作并显示层次结构,优化了蒙版单元的序列化。
  • 实验证明 HiViT-B 在 ImageNet-1K 上相对于 ViT-B 的准确率提高了 0.6%。
  • HiViT-B 比 Swin-B 快了 1.9 倍。
  • HiViT 在检测和分割等下游任务中提高了泛化性能。
➡️

继续阅读