小红花·文摘

豆包团队推出VideoWorld模型，利用纯视觉信号学习复杂任务，无需语言模型。该模型通过潜在动态模型压缩视频帧间变化，提高学习效率，已在围棋和机器人任务中取得优异表现。尽管面临真实环境的挑战，团队仍致力于将其发展为通用知识学习工具。