本文探讨了新闻图像标题生成任务,提出了一种多模态实体感知对齐框架,以提升模型性能。实验结果表明,该方法在GoodNews和NYTimes800k数据集上显著提高了CIDEr分数,展示了多模态大型语言模型在处理实体信息方面的潜力。
ViECap是一种可转移的解码模型,利用实体感知解码生成见过和没见过的场景中的描述。通过实体感知的硬提示,ViECap能够在跨多样场景的连贯字幕生成中保持性能,并在跨域字幕生成方面达到最新水平。
完成下面两步后,将自动完成登录并继续当前操作。