Hume——系统1(VLM+评估头+动作头)与系统2(动作头)的组合:系统1做慢思考且通过价值评估选择对应的动作片段,让系统2持续扩散去噪
📝
内容提要
本文提出Hume模型,通过双系统架构实现机器人智能控制。System2基于预训练视觉语言模型(VLM),采用价值引导的重复采样机制进行慢思考,生成候选动作;System1则通过级联动作去噪实现90Hz实时控制。该模型创新性地结合了价值评估与动作生成,在保持实时性的同时提升了复杂任务的执行能力。实验表明,该方法能有效平衡思考速度与控制精度,为通用机器人策略提供了新思路。
🏷️
标签
➡️