研究者提出了一个新任务,通过整合语言和视觉信息来解决LVLMs在艺术品解释生成任务中的困难。他们提供了评估数据集和度量标准,并发布了一个训练数据集,以帮助LVLMs学习艺术品解释。
大规模视觉语言模型(LVLMs)在艺术品解释生成任务中遇到困难,需要整合语言和视觉信息。研究者提出了一个新任务,并提供了评估数据集和度量标准。他们还发布了一个训练数据集,以帮助LVLMs学习艺术品解释。数据集可在链接中找到。
完成下面两步后,将自动完成登录并继续当前操作。