本文探讨了个性化视觉-语言模型的研究,重点在于通过外部概念嵌入和中间特征空间的整合,提升图像字幕生成和视觉问答的效果。研究表明,该模型在多个数据集上表现优异,尤其在个性化调整和零样本学习方面显著提高了推理能力和分类准确率。此外,提出了新的学习设置PerVL,有效学习个性化视觉概念。
完成下面两步后,将自动完成登录并继续当前操作。