小红花·文摘

本文介绍了一种名为质量-多样性演员-评论家（QDAC）的深度强化学习算法，旨在解决复杂的连续控制任务。QDAC通过优化两个评论家，最大化回报并执行多样化技能，表现出显著的性能提升和适应能力，优于其他方法，展示了广泛的应用潜力。