该论文探讨了多智能体强化学习中的安全性问题,提出了基于时间逻辑的安全要求和动态屏蔽技术等多种安全保障方法,确保智能体在学习和执行阶段的安全性。实验结果表明,这些方法有效提高了安全性和收敛速度,而不影响学习质量。
本文提出了一种带有片段式探索机制的循环强化学习代理,旨在文本游戏中发现有效策略。研究表明,该代理能够在未见过的更难游戏中泛化,展示了在多样化任务中学习的潜力。此外,探讨了深度学习与时间逻辑结合的应用,提出了新型数位分解器和计数奖励自动机,提升了样本效率和任务完成能力。
本研究提出了一种框架,通过时间逻辑公式和嵌入方法对强化学习代理的行为进行解释和聚类。实验结果表明,该框架能够有效分类代理行为,并提供易于理解的策略描述,从而提升用户在代理验证任务中的表现。
完成下面两步后,将自动完成登录并继续当前操作。