小红花·文摘

本文介绍了可微分物理实验基准PasticineLab，评估了强化学习和梯度优化方法在软体操纵任务中的表现。研究发现，梯度方法在短期内有效，但在多阶段任务上表现不佳。期望推动结合可微分物理与强化学习的新算法开发，以实现更复杂的技能学习任务。