本研究提出了一种新的基于噪声的奖励调制学习规则,克服了传统强化学习在资源受限环境中的局限性。该方法结合方向导数理论与Hebbian-like更新,实现了有效的无梯度学习,实验结果表明其在延迟奖励环境中表现优异,适用于低功耗和实时应用。
完成下面两步后,将自动完成登录并继续当前操作。