小红花·文摘

本研究针对传统强化学习中的稀疏奖励问题，提出了一种逐步奖励优化策略，以提升智能体在复杂任务中的表现。通过比较专家与代理的动作，自动生成中间奖励，实现更精细的策略优化，实验结果表明该方法优于现有基线。