可解释的视觉 - 语言对齐的统一词汇表示
原文中文,约300字,阅读约需1分钟。发表于: 。LexVLA 是一个更可解释的 VLA 框架,通过学习统一的词汇表示,同时利用具有上下文词汇预测能力的两个预训练单模型,在适度的多模态数据集上微调,避免了复杂的训练配置,并在跨模态检索基准测试中表现优于其他模型。
本论文通过引入VISLA基准测试评估语言模型的语义和词汇理解能力,结果显示现有最先进的语言模型在理解语义细节方面存在挑战。通过三个与图像相关的语义任务对视觉-语言模型和单模态语言模型进行评估,发现语言模型编码器对语义和词汇变化更敏感。论文提出了统一的图像-文本和文本-文本检索任务的评估方法,并在词汇改动存在的条件下评估语言模型的语义变化。