小红花·文摘

如何在JavaScript中利用强化学习构建自适应井字棋AI

freeCodeCamp.org ·

创世AGI

DEV Community ·

通过比较决策Transformer（DT）和基于演员-评论者结构与经验回放的现有方法，研究发现DT在学习效率、分布转移缓解和零-shot泛化方面具有优势，但在监督参数更新时会加剧遗忘问题。引入多头DT（MH-DT）和低秩自适应DT（LoRA-DT）以减轻遗忘问题。实验结果表明，该方法在增强学习能力和内存效率方面优于现有的CORL基准。

使用决策 Transformer 解决持续离线强化学习

BriefGPT - AI 论文速递 ·

本文介绍了一种带有均匀大规模经验回放机制的演员-评论家增强学习算法，解决了经验回放和离线策略学习的挑战。通过混合经验回放采样和在线策略采样的新方案，处理了V-trace不稳定的数据分布，并在Atari游戏中证明了该设置的数据效率的优势。

实验间重演：离策略强化学习的自然扩展

BriefGPT - AI 论文速递 ·

该文介绍了一种基于学习驱动的自适应控制方法，通过生物启发的经验回放机制、领域随机化技术和物理平台上的评估协议，实现了仿真到真实的迁移策略。实验结果表明，该方法能够从AUV的次优仿真模型中学到有效的策略，并在实际环境中将控制性能提高3倍。

面向水下无人机在水流干扰下的自适应控制参数的虚实转换

BriefGPT - AI 论文速递 ·

本文简要介绍了DQN算法的定义、模型、经验回放和智能体的定义，讨论了训练和测试的过程，并给出了参数设置和绘制奖励曲线的方法。

深度Q网络：DQN项目实战CartPole-v0

华为云官方博客 ·