量子位 ·

LeCun发布最新世界模型：首次实现16秒连贯场景预测，具身智能掌握第一视角！还打脸用了VAE

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

LeCun团队推出PEVA模型，实现了16秒的连贯场景预测，赋予机器人具身智能，能够主动理解环境。该模型通过结构化动作表示和条件扩散Transformer，模拟人类预判能力，提升智能体的动作规划和视觉生成，标志着AI从“人工智障”向“人工预判”的进化。

🎯

🔎

PEVA模型通过结合结构化动作表示和条件扩散Transformer，首次实现了长达16秒的连贯场景预测。这一创新不仅提升了机器人对环境的理解能力，还使其具备了类似人类的预判能力，标志着人工智能在具身智能领域的重要进步。

PEVA模型在训练过程中采用了随机时间跳跃和时间注意力机制，成功解决了长时序动作预测中的计算效率与延迟效应问题。这一技术突破使得智能体能够更准确地模拟复杂动作，提升了其在动态环境中的适应能力。

尽管LeCun曾批评VAE的局限性，但在PEVA模型中却使用了VAE编码器。这一选择引发了网友的讨论，可能表明LeCun对VAE的看法有所变化，或是出于实用性的考虑。这也反映了在AI研究中，技术选择常常需要在理论与实践之间找到平衡。

❓

PEVA模型实现了16秒的连贯场景预测，赋予机器人具身智能，能够主动理解环境。

PEVA模型通过结构化动作表示和条件扩散Transformer，模拟人类的预判能力，提升智能体的动作规划和视觉生成。

PEVA模型使用了随机时间跳跃训练和时间注意力机制，提升了动作与视觉的关系捕捉能力。

PEVA模型在多项任务上表现优于基线模型，生成画面与真实画面的视觉相似度更高，且能更精准地捕捉细粒度动作带来的视觉变化。

LeCun在PEVA模型中使用VAE编码器是为了进行视频帧的编码，尽管他曾批评VAE的局限性，这引发了网友的讨论。

PEVA模型通过随机时间跳跃与跨历史帧注意力机制，解决了长时序动作预测中的计算效率与延迟效应问题。

🏷️