小红花·文摘

本文探讨了新闻图像标题生成任务，提出了一种多模态实体感知对齐框架，以提升模型性能。实验结果表明，该方法在GoodNews和NYTimes800k数据集上显著提高了CIDEr分数，展示了多模态大型语言模型在处理实体信息方面的潜力。

BriefGPT - AI 论文速递 ·

ViECap是一种可转移的解码模型，利用实体感知解码生成见过和没见过的场景中的描述。通过实体感知的硬提示，ViECap能够在跨多样场景的连贯字幕生成中保持性能，并在跨域字幕生成方面达到最新水平。

BriefGPT - AI 论文速递 ·