小红花·文摘

该研究探讨了将视觉内容整合到对话AI系统中的方法，提出了一种多模态视觉-语音预测模型，性能优于文本基准。通过自监督学习和闭环视频模型训练，显著提升了视频任务的表现，推动了视觉-语言领域的发展。