香港科技大学在 SemEval-2023 任务 1 中的视觉词义消歧:通过上下文增强和视觉辅助
原文中文,约300字,阅读约需1分钟。发表于: 。我们提出了一个多模态检索框架,充分利用了预训练的视觉 - 语言模型、开放知识库和数据集,通过处理上下文与目标词的含义进行匹配、使用提示模板整合匹配的描述和其他文本信息进行图像检索、融合不同模态的上下文信息并用于预测,为词义消歧和多模态学习领域带来了深刻的见解。
该文章介绍了Alberta大学团队在SemEval-2023视觉词义消歧任务中的系统,使用了BabelNet中检索到的注释、文本和图像编码器的组合算法。此外,还使用语言模型生成的描述来增强上下文,提高准确性。官方提交结果排名第18,非官方结果更好。