本研究通过结合视觉相似性检索器和可微分编码器,利用外部kNN内存提升生成效果。在COCO和nocaps数据集上,外部存储器显著提高了字幕质量,特别是在大规模检索库中。
完成下面两步后,将自动完成登录并继续当前操作。