本文介绍了VisualComet框架,旨在预测图像中的事件和人物意图,并建立了一个包含140万个文本描述和图像的数据集。研究探讨了多模态模型在视觉常识生成中的应用,提出了新的预训练任务以提升性能,强调了数据多样性对生成文本的影响,并提出了结合视觉-语言模型的细粒度常识提取任务。
完成下面两步后,将自动完成登录并继续当前操作。