小红花·文摘

本文介绍了VisualComet框架，旨在预测图像中的事件和人物意图，并建立了一个包含140万个文本描述和图像的数据集。研究探讨了多模态模型在视觉常识生成中的应用，提出了新的预训练任务以提升性能，强调了数据多样性对生成文本的影响，并提出了结合视觉-语言模型的细粒度常识提取任务。