小红花·文摘

本文针对强化学习中的延迟奖励问题，提出了对近端策略优化（PPO）算法的两项增强，结合离线与在线策略，并引入基于时间窗口的奖励塑造机制，以提高学习效率和性能。

Accelerating Proximal Policy Optimization Learning with Task Prediction to Address Delayed Rewards in Games

BriefGPT - AI 论文速递 ·

本研究介绍了StepTool，一种新的分步强化学习框架，解决大型语言模型在工具学习中的问题。通过分步奖励和优化，StepTool显著提升了工具学习效果，优于现有方法，适用于复杂任务环境。

StepTool: A Stepwise Reinforcement Learning Framework for Tool Learning in Large Language Models

BriefGPT - AI 论文速递 ·

最近出现了大量的内在动机（IM）奖励塑造方法来学习复杂和稀疏奖励的环境。我们提出了一个扩展的潜在基于奖励塑造（PBRS）方法，保留了最优策略集。同时，我们还提出了一种名为“基于潜在的内在动机”（PBIM）的方法，将IM奖励转化为基于潜在的形式，而无需改变最优策略集。在测试中，我们证明PBIM成功防止了智能体收敛到次优策略并且可以加速训练。

基于潜力的奖励塑造对内在动机的影响

BriefGPT - AI 论文速递 ·