GigaBrain-0——通过世界模型增强VLA的泛化能力,且通过RGBD输入以及具身CoT增强推理能力

📝

内容提要

摘要: GigaBrain-0是一种新型视觉-语言-动作(VLA)模型,通过世界模型生成的合成数据克服真实机器人数据采集的成本和多样性限制。该模型整合RGB-D输入增强空间感知,并引入具身思维链(Embodied CoT)框架,模拟人类推理过程以提升长时程任务和精细动作的决策能力。采用混合Transformer架构(SigLIP视觉编码器+Diffusion...

➡️

继续阅读