量子位 ·

大事不好！机器人学会预测未来了

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

蚂蚁灵波开源的LingBot-VA是全球首个因果视频-动作模型，能够预测未来并执行任务，具备长期记忆和高效泛化能力，适应新任务。通过视频推演，机器人在复杂任务中表现优异，标志着通用机器人进入视频时代。

🎯

🔎

LingBot-VA作为全球首个因果视频-动作模型，标志着机器人技术的一次重大突破。它不仅打破了传统的观察-反应模式，还通过预测未来的方式提升了决策能力。这种创新使得机器人在复杂任务中能够更好地适应和执行，预示着通用机器人将进入一个全新的发展阶段。

LingBot-VA具备长期记忆和高效泛化能力，使其在执行长序列和高精度任务时表现出色。与传统模型相比，它能够在较少的样本下快速适应新任务，这对于实际应用中的灵活性和效率提升具有重要意义。用户在选择机器人时，应关注其适应能力和记忆功能。

蚂蚁灵波的开源项目不仅推动了自身技术的发展，也引发了行业内的广泛关注。随着LingBot-VA的推出，通用机器人在视频时代的应用前景愈加明朗。这一趋势可能促使更多企业投入资源进行相关技术研发，从而加速整个行业的进步与变革。

❓

LingBot-VA是全球首个因果视频-动作模型，能够预测未来并执行任务，具备长期记忆和高效泛化能力。

LingBot-VA通过自回归视频预测，先在脑中推演未来的画面，再执行动作，从而打破了传统的观察-反应模式。

LingBot-VA在长序列任务中表现优异，能够记住之前的状态，即使失败也能尝试重来。

LingBot-VA通过引入KV-cache技术，确保模型能够记住之前的状态，从而实现长期记忆。

LingBot-VA只需提供几十个演示样本，就能适应新任务，显示出高效的泛化能力。

LingBot-VA的开源项目推动了通用机器人进入视频时代，促进了技术的进步和行业的关注。

🏷️