小红花·文摘

本文介绍了一种新算法“Discriminator-Actor-Critic”，旨在解决基于对抗模仿学习的隐式偏差和复杂性问题。该算法通过离线策略强化学习降低交互复杂度，并设计无偏差奖励函数，适用于多种任务。研究还探讨了生成对抗模仿学习的理论性质，提出了优化算法和新颖的观察学习框架，显著提升了机器人控制策略的学习性能。