GigaWorld-Policy——以动作为中心的世界动作模型：为降低推理延迟，训练用视频，推理能可选性的去视频(类似τ0-WM)

💡 原文中文，约3900字，阅读约需10分钟。

📝

内容提要

GigaWorld-Policy是一种高效的以动作为中心的世界-动作模型，旨在提升机器人策略学习。该模型结合未来视觉动态与动作预测，优化学习效率并减少推理延迟。通过课程式训练和多样化视频源注入物理先验，在机器人数据上进行预训练，以增强对交互动力学的鲁棒性。

🎯

关键要点

GigaWorld-Policy是一种高效的以动作为中心的世界-动作模型，旨在提升机器人策略学习。
该模型结合未来视觉动态与动作预测，优化学习效率并减少推理延迟。
GigaWorld-Policy通过课程式训练和多样化视频源注入物理先验，在机器人数据上进行预训练，以增强对交互动力学的鲁棒性。
模型在推理阶段可以选择不进行显式的未来视频预测，直接输出控制指令，从而降低计算和内存开销。
GigaWorld-Policy的架构采用了一个参数规模为50亿的扩散Transformer，能够在多视角间进行一致的联合推理。

❓

延伸问答

GigaWorld-Policy的主要目标是什么？

GigaWorld-Policy旨在提升机器人策略学习，优化学习效率并减少推理延迟。

GigaWorld-Policy如何减少推理延迟？

该模型在推理阶段可以选择不进行显式的未来视频预测，直接输出控制指令，从而降低计算和内存开销。

GigaWorld-Policy的训练方法是什么？

GigaWorld-Policy通过课程式训练和多样化视频源注入物理先验，在机器人数据上进行预训练。

GigaWorld-Policy的架构特点是什么？

该模型采用了一个参数规模为50亿的扩散Transformer，能够在多视角间进行一致的联合推理。

GigaWorld-Policy如何增强对交互动力学的鲁棒性？

通过在预训练中结合真实机器人录制与大规模自我视角的人类视频，提升其对具身特定视角与交互动力学的鲁棒性。

GigaWorld-Policy与其他模型相比有什么优势？

GigaWorld-Policy减少了对显式视频生成的依赖，降低了推理延迟，并避免了长时间视觉展开带来的误差累积。

🏷️

继续阅读

Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
SKAI Intelligence与首尔大学AI研究院开展合作研究
SKAI Intelligence与首尔大学AI研究院签署合作备忘录，联合研究机器人感知与抓取技术，重点包括物理AI核心视觉、多物体识别与位姿估计，以提升...
LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...
一个GPT Plus会员的钱，够机器人跑一个月世界模型了
智在无界推出的Being-H-Flash隐式世界模型，月算力成本仅150元，能够在百TOPS级芯片上实现实时运行。该模型通过潜空间推理，降低了计算开销，提...
微软在Build大会发布七款MAI新模型：顶尖MAI-Thinking-1深度拆解
微软在Build大会上发布了七款新AI模型，特别是MAI-Thinking-1，展示了其完整的AI产业链。通过自研MAIA芯片和大量人类数据训练，微软实现...
模型评估：证明您的路由策略确实有效
本文介绍了DigitalOcean的模型评估功能，帮助团队在真实工作负载下评估不同的推理策略。用户可以通过比较多种模型和路由策略来优化成本、延迟和输出质量...

GigaWorld-Policy——以动作为中心的世界动作模型：为降低推理延迟，训练用视频，推理能可选性的去视频(类似τ0​-WM)