本研究探讨了多模式计算机视觉中的自回归解码器,涵盖分类、字幕和视觉问答等任务。实验分析了多任务训练和超参数调节的影响,发现锁定图像调整解码器表现优异。此外,提出了基于遮码机制的非自回归解码模型,有效生成多样化的图像标题,并介绍了多视角视频自监督学习方法,提升了计算机视觉任务的表现。
完成下面两步后,将自动完成登录并继续当前操作。