GigaBrain-0.5M*(可对标π∗0.6)——从基于世界模型的RL中学习的VLA：通过“预测的价值和未来状态、经验数据、人工纠正”优化动作策略

💡 原文中文，约17400字，阅读约需42分钟。

📝

内容提要

本文介绍了GigaBrain-0.5M*模型，该模型通过世界模型增强了视觉-语言-动作（VLA）系统的能力。GigaBrain-0.5M*在GigaBrain-0.5的基础上，采用了基于世界模型的强化学习方法RAMP，显著提升了机器人在复杂任务中的表现，尤其在长时程任务中的前瞻性规划能力。

🎯

❓

GigaBrain-0.5M*模型通过引入基于世界模型的强化学习方法RAMP，显著增强了视觉-语言-动作系统的能力，尤其在长时程任务中的前瞻性规划能力。

RAMP框架包含四个阶段：世界模型预训练、策略微调、人类在环的执行数据收集、利用这些数据进行策略训练。

实验结果表明，GigaBrain-0.5M*在多个复杂操作任务中表现优异，成功率显著高于基线模型，展示了其在真实世界应用中的有效性。

GigaBrain-0.5M*通过引入世界模型的预测，显著提高了动作生成的条件熵，从而增强了模型的决策能力。

GigaBrain-0.5M*通过利用世界模型的预测能力，克服了传统VLA模型在长时程动作规划中的短视观测依赖，提升了任务执行的前瞻性。

GigaBrain-0.5M*在超过10,000小时的多样化数据集上进行预训练，其中包括6,000小时的世界模型生成数据和4,000小时的真实机器人采集数据。

🏷️

从看懂世界到做对动作，卧安机器人OneModel 1.7用一条「隐式通路」打通了具身智能的关键断层
卧安机器人发布了OneModel 1.7 FrontoStria-RL，该模型通过隐式传导机制将世界模型与动作执行连接，提升了家庭机器人在真实环境中的操作...
Frontier Tuning：教AI像您一样工作
微软在Build大会上推出了Frontier Tuning，这是一种通过强化学习使AI适应企业数据和流程的新方法。该系统在合规边界内运行，能够根据企业的独...
OpenAI是如何构建其数据代理的
OpenAI的数据平台存储了1.5 exabytes的数据，支持约4000名内部用户。为提高数据分析效率，OpenAI开发了一个数据代理，能够快速回答用户...
RustWeek 2026：我们学到了什么、遇见了谁，以及Rust的未来
RustWeek 2026在荷兰乌得勒支举行，吸引了900多名Rust开发者和教育者。RustRover团队展示了最新功能并与社区成员交流。嵌入式Rust...
世界模型榜首易主！跨维智能登顶WorldArena
跨维智能在全球权威评测榜单WorldArena中获得第一名，超越英伟达和谷歌。其模型DSCFuncWorld在Track 2赛道表现优异，展现了强大的数据...
用 Amazon Quick 加速日常数据工作
Amazon Quick 是一款企业办公助手，利用自然语言处理技术提升数据处理效率。用户只需描述需求，Quick 即可自动分析、生成报告和执行工作流程，适...