学习跨模态关联性以用于有限样本的参照视频对象分割
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种基于Transformer架构的简单而有效的模型,通过新设计的跨模态亲和力(CMA)模块在少样本上构建多模态亲和力,快速学习新的语义信息,并使模型适应不同场景。该模型为少样本的视频目标指代分割(FS-RVOS)问题提供了解决方案。在新建立的FS-RVOS基准上进行了广泛实验,结果显示该模型在少样本的情况下能很好地适应不同场景,达到了基准上的最先进性能。
🎯
关键要点
- 提出了一种基于Transformer架构的模型。
- 模型通过新设计的跨模态亲和力(CMA)模块构建多模态亲和力。
- 该模型能够快速学习新的语义信息。
- 模型适应不同场景,为少样本的视频目标指代分割(FS-RVOS)问题提供解决方案。
- 在新建立的FS-RVOS基准上进行了广泛实验。
- 实验结果显示模型在少样本情况下能很好适应不同场景,达到了最先进性能。
🏷️
标签
➡️