小红花·文摘

本文探讨了通过符号自动机和潜在奖励提升强化学习的收敛性，介绍了多种基于模型的强化学习方法，优化了控制策略，并在机器人控制和电信领域取得显著成果。研究提出的新算法SAGE结合符号规划与神经网络，解决了部分了解环境中的问题，展示了在复杂任务中的优越性能。