MTA-CLIP:带有口罩文本对齐的语言导向语义分割
原文中文,约300字,阅读约需1分钟。发表于: 。通过引入 MTA-CLIP,一种新型的基于掩膜级别视觉 - 语言对齐的框架,该研究以大规模的视觉 - 语言模型 CLIP 为基础,通过 Mask-Text Decoder 和 Mask-to-Text Contrastive Learning 等方法,实现了在 ADE20k 和 Cityscapes 等标准基准数据集上超越了先前工作平均 2.8% 和 1.3% 的最新成果。
CLIP2Video是一种新的视频文本检索方法,通过将图像语言预训练模型转移到视频文本检索,提升多模态相关性,实现了最新的检索准确性记录。