小红花·文摘

本文提出了一种新颖的密度感知安全感知（DASP）方法，旨在解决离线强化学习中的状态分布偏移问题。该方法通过鼓励代理选择数据密度更高的结果，提升决策过程的安全性和可靠性。