Apple Machine Learning Research ·

类人策略 ~ 人类策略

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

本研究探讨通过人类自我中心示范数据训练类人机器人，以提升其任务和平台间的鲁棒性与泛化能力。我们收集了与类人操作示范对齐的任务导向数据集，并训练了人类-类人行为策略（HAT），实现了人类与类人机器人的统一状态-动作空间。结果显示，人类数据显著增强了HAT的泛化能力和鲁棒性。

🎯

🔎

传统的类人机器人训练依赖于机器人示范数据，这种方法不仅劳动强度大，而且难以扩展。通过引入人类自我中心示范数据，研究提供了一种更高效的解决方案，能够在减少数据收集成本的同时提升机器人的学习能力。

研究表明，使用人类示范数据可以显著增强类人机器人的泛化能力和鲁棒性。这种方法不仅缩小了类人机器人与人类之间的体现差距，还提高了数据收集的效率，为未来的机器人学习提供了新的思路。

人类-类人行为策略（HAT）通过统一人类与类人机器人的状态-动作空间，展现了其在无监督学习中的潜力。这种创新的策略使得机器人能够更灵活地适应不同的任务和平台，具有广泛的应用前景。

❓

通过使用人类自我中心示范数据训练类人机器人，研究提升了其任务和平台间的鲁棒性与泛化能力。

人类-类人行为策略（HAT）是一种训练策略，旨在统一人类与类人机器人的状态-动作空间，并直接建模两者的不同体现。

研究中使用了与类人操作示范对齐的任务导向数据集，称为PH2D。

因为机器人示范数据的收集劳动强度大，且难以扩展，导致学习效率低下。

人类数据显著增强了HAT的泛化能力和鲁棒性，并提高了数据收集效率。

通过使用人类示范作为跨体现训练数据，研究缓解了类人机器人与人类之间的体现差距。

🏷️