小红花·文摘

本研究提出了一种新的基于噪声的奖励调制学习规则，克服了传统强化学习在资源受限环境中的局限性。该方法结合方向导数理论与Hebbian-like更新，实现了有效的无梯度学习，实验结果表明其在延迟奖励环境中表现优异，适用于低功耗和实时应用。