LUM-ViT:适用于带宽有限的光信号采集的可学习欠采样掩膜视觉变换器
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了HiViT,一种高效且性能良好的分层视觉转换器。实验证明,HiViT-B在ImageNet-1K上相对于ViT-B的准确率提高了0.6%,比Swin-B快了1.9倍,并在检测和分割等下游任务中提高了泛化性能。
🎯
关键要点
- 提出了一种名为 HiViT 的分层视觉转换器设计。
- HiViT 在 MIM 中具有高效性和良好的性能。
- 通过关闭 Swim Transformer 的局部对单元操作并显示层次结构,优化了蒙版单元的序列化。
- 实验证明 HiViT-B 在 ImageNet-1K 上相对于 ViT-B 的准确率提高了 0.6%。
- HiViT-B 比 Swin-B 快了 1.9 倍。
- HiViT 在检测和分割等下游任务中提高了泛化性能。
🏷️
标签
➡️