大规模视觉语言模型(LVLMs)在艺术品解释生成任务中存在困难,需要整合语言和视觉信息。研究者提出了一个新任务,并发布了相应的评估数据集和训练数据集。LVLMs 在仅从图像中获取知识方面存在限制。
完成下面两步后,将自动完成登录并继续当前操作。