小红花·文摘

本研究探讨了多模式计算机视觉中的自回归解码器，涵盖分类、字幕和视觉问答等任务。实验分析了多任务训练和超参数调节的影响，发现锁定图像调整解码器表现优异。此外，提出了基于遮码机制的非自回归解码模型，有效生成多样化的图像标题，并介绍了多视角视频自监督学习方法，提升了计算机视觉任务的表现。