小红花·文摘

本研究提出了一种新算法ATRPO，结合策略改善与深度强化学习，实验结果显示其在MuJoCo环境中优于传统TRPO算法。同时，研究探讨了公平性、长期平均目标及奖励学习的优化问题，提出了多种改进算法和理论框架，强调了在强化学习中考虑平均回报的重要性。