豆包团队推出VideoWorld模型,利用纯视觉信号学习复杂任务,无需语言模型。该模型通过潜在动态模型压缩视频帧间变化,提高学习效率,已在围棋和机器人任务中取得优异表现。尽管面临真实环境的挑战,团队仍致力于将其发展为通用知识学习工具。
完成下面两步后,将自动完成登录并继续当前操作。