小红花·文摘

本研究提出了一种描述任何内容模型（DAM），旨在解决视觉-语言模型在图像和视频特定区域生成详细描述的挑战。该模型通过聚焦提示和局部视觉骨干，结合局部细节与全局上下文，在七个基准测试中刷新了局部字幕生成的记录，显示出显著进展。