小红花·文摘

本文介绍了VisualComet框架，旨在预测图像中的事件和人物意图，并建立了一个包含140万个文本描述和图像的数据集。研究探讨了多模态模型在视觉常识生成中的应用，提出了新的预训练任务以提升性能，强调了数据多样性对生成文本的影响，并提出了结合视觉-语言模型的细粒度常识提取任务。

BriefGPT - AI 论文速递 ·

该研究提出了一个新的人类常识任务和数据集HumanCog，并探讨了丰富的视觉常识和多模式集成的重要性。同时，研究开发了一种强有力的基线方法，并提出了未来的工作方向。

BriefGPT - AI 论文速递 ·