本文介绍了VisualComet框架,旨在预测图像中的事件和人物意图,并建立了一个包含140万个文本描述和图像的数据集。研究探讨了多模态模型在视觉常识生成中的应用,提出了新的预训练任务以提升性能,强调了数据多样性对生成文本的影响,并提出了结合视觉-语言模型的细粒度常识提取任务。
该研究提出了一个新的人类常识任务和数据集HumanCog,并探讨了丰富的视觉常识和多模式集成的重要性。同时,研究开发了一种强有力的基线方法,并提出了未来的工作方向。
完成下面两步后,将自动完成登录并继续当前操作。