DoorMan——先仿真中“教师-学生两阶段训练”后Sim2Real，最后仅靠视觉打开会议室的门，给客户递杯水(可额外探索教师策略未演示的行为)

💡 原文中文，约8000字，阅读约需19分钟。

📝

内容提要

DoorMan提出了一种基于视觉的人形机器人行走-操作学习框架，专注于开门任务。该方法通过分阶段重置探索策略和GRPO微调，解决了部分可观测性问题，实现了从仿真到现实的迁移。研究表明，该策略在多种门类型上表现优异，任务完成时间缩短31.7%。

🎯

关键要点

DoorMan提出了一种基于视觉的人形机器人行走-操作学习框架，专注于开门任务。
该方法通过分阶段重置探索策略和GRPO微调，解决了部分可观测性问题。
研究表明，该策略在多种门类型上表现优异，任务完成时间缩短31.7%。
DoorMan的目标是构建具有良好泛化能力的行走-操作一体化学习流程。
作者提出了一种新颖且可扩展的教师-学生-自举学习流程，以提高训练效率。
在Isaac Lab中构建了一条大规模的域随机化流水线，实现了物理和视觉属性的广泛变化。

❓

延伸问答

DoorMan的主要目标是什么？

DoorMan的主要目标是构建一个基于视觉的人形机器人行走-操作一体化学习流程，专注于开门任务。

DoorMan如何解决部分可观测性问题？

DoorMan通过引入GRPO微调过程来缓解部分可观测性问题，稳定长时间跨度的行为。

DoorMan的训练效率如何提高？

DoorMan采用了一种新颖的教师-学生-自举学习流程，通过阶段条件奖励和探索策略来提高训练效率。

DoorMan在开门任务上表现如何？

DoorMan在多种门类型上表现优异，任务完成时间缩短了31.7%。

DoorMan的训练数据来源是什么？

DoorMan的训练数据主要来自于仿真环境，通过大规模的域随机化流水线生成多样化的门环境。

DoorMan的探索策略有什么特点？

DoorMan的探索策略采用分阶段重置的方法，以稳定长时域特权策略的训练。

🏷️

继续阅读

为什么中端市场买家正在重新思考他们的 UCaaS 策略
中型企业正在重新审视通信平台，强调集成、运营效率和合规性。它们快速采用统一通信（UC）平台，但面临资源不足的挑战。集成与行业特定系统的兼容性成为关键，许多...
模型评估：证明您的路由策略确实有效
本文介绍了DigitalOcean的模型评估功能，帮助团队在真实工作负载下评估不同的推理策略。用户可以通过比较多种模型和路由策略来优化成本、延迟和输出质量...
机器视觉压缩的三种途径：VCM、FCM 和 V-Nova 通配符
视频编码技术正向机器视觉优化发展，主要有三种方案：面向机器的视频编码（VCM）、面向机器的特征编码（FCM）和V-Nova的LCEVC。VCM优化像素处理...
LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
正如我们在 AWS 2026“What’s Next”大会上预告的那样，我们现在正式宣布：OpenAI GPT […]
性和浪漫爱情可以都是崇高的
文章探讨了性与浪漫爱情的二元对立，指出这种观念导致性压抑和内心冲突，尤其是女性在享受性愉悦时常感到恐惧和焦虑。尽管性与浪漫爱情在生理上并无高低之分，但文化...