增强强化学习中的安全性,通过异常状态序列建模
原文中文,约400字,阅读约需1分钟。发表于: 。在含有大量未知观察的变化环境中,保证人工智能在决策应用中的安全性和可靠性是必要的。本研究提出了一种新颖的安全强化学习方法,利用异常状态序列来增强强化学习的安全性,通过在离线的‘源’环境中训练一个代理从而收集安全状态序列,然后建立一个异常检测模型来检测在‘目标’安全关键环境中潜在不安全的状态序列,并利用异常检测模型估计的风险来训练一个风险规避的强化学习策略,通过调整奖励函数来惩罚代理访问被异常...
本研究提出了一种利用异常状态序列增强强化学习安全性的新方法。通过训练代理收集安全状态序列并建立异常检测模型,有效监督训练具有安全意识的强化学习代理。