小红花·文摘

本文研究了鲁棒强化学习中的关键问题，包括缺失环境信息、敌对干扰、奖励污染和数据损坏。提出了鲁棒Q-learning和天然策略梯度等多种算法，并证明了其收敛性和鲁棒性。此外，引入了CROP框架和鲁棒IQL方法，展示了在不同环境下的有效性，强调了对抗性损坏的挑战及解决方案。

鲁棒Q学习在奖励受损情况下的应用

BriefGPT - AI 论文速递 ·

该文章提出了一个统一安全强化学习和鲁棒强化学习问题的框架，基于两人零和马尔可夫博弈，提出了双重策略迭代方案和深度强化学习算法DRAC。实验结果显示，DRAC在各种情景下表现出高性能和持续的安全性，优于其他基准算法。

长期安全强化学习与二进制反馈

BriefGPT - AI 论文速递 ·

该文提出了一个框架来统一安全强化学习和鲁棒强化学习的问题，建立在有约束的两人零和马尔可夫博弈上，提出了一种双重策略迭代方案，同时优化任务策略和安全策略。设计了一种用于实际实现的深度强化学习算法 DRAC，安全关键的基准评估表明 DRAC 在所有情景下实现了高性能和持续的安全性，并且明显优于所有基准线。

具有双重鲁棒性的安全强化学习

BriefGPT - AI 论文速递 ·