EVCap：用于开放世界理解的外部视觉名称存储的检索增强图像字幕

该研究介绍了一种基于大型语言模型的图像字幕生成方法，利用外部可视 - 名称记忆检索并提供对象名称，从而更新对象知识记忆，实现对未知对象的理解，并在各种基准测试中展现出优越性能。

ViECap是一种可转移的解码模型，利用实体感知解码生成见过和没见过的场景中的描述。ViECap通过实体感知的硬提示将LLMs的注意力引导到图像中存在的视觉实体，实现了跨多样场景的连贯字幕生成。实验证明ViECap在跨域字幕生成方面具有竞争力。

存储