小红花·文摘

本文介绍了一种基于深度强化学习的共识型模拟现实联合训练算法（CSAR），旨在优化机器人在模拟和实际环境中的策略。研究发现，模拟中的最佳策略不一定适用于真实环境，且更多的模拟代理有助于训练。通过随机化模拟器的动力学，开发出适应不同环境的策略，提升了机器人在物体推动任务中的表现。