小红花·文摘

本研究提出顾问-演员-评论家(AAC)方法，旨在解决强化学习在高精度控制任务中的稳态误差问题。AAC结合反馈控制理论与强化学习的自适应能力，通过顾问指导演员优化控制行为，从而显著提高目标实现的精度。基准测试结果表明，AAC在高精度任务中优于传统强化学习算法。