本文介绍了一种自监督的SCORER网络,旨在生成高质量的图像描述。该方法通过交叉模态学习和对比策略,显著提升了描述的稳定性和鲁棒性。实验结果显示,该模型在多个数据集上优于现有模型,且计算成本保持不变。
完成下面两步后,将自动完成登录并继续当前操作。