本文研究了多模态学习和预训练语言模型在机器人语言描述及人机交互中的应用,提出了一种基于变分自编码器的模型,展示了其在处理多模态数据和缺失数据插补方面的优势。实验结果表明,该模型在多个数据集上表现优异,推动了视觉与语言的结合。
该文介绍了GPPVAE模型,结合了VAEs和GP priors的能力,解决了VAEs潜在样本表示不够强的问题,并介绍了一种新的随机反向传播策略,可以在两个图像数据应用程序中优于CVAEs和标准VAEs。
完成下面两步后,将自动完成登录并继续当前操作。