不确定环境中的安全强化学习
原文中文,约400字,阅读约需1分钟。发表于: 。在实际部署中的机器学习算法时,确保安全是一项重要的资产。现有的安全学习方法通常考虑连续变量,即回归任务。然而,在实践中,机器人系统还受到离散的、外部的环境变化的影响,例如必须携带一定重量的物体或在冻结、潮湿或干燥的表面上操作。这些影响可以建模为离散的上下文变量。在现有的文献中,如果考虑了这些上下文,大多数情况下是假设为已知的。在这项工作中,我们放弃了这个假设,并展示了当我们不能直接测量上下文...
在实际部署机器学习算法时,确保安全是重要的。本文介绍了一种通过实验识别上下文的方法,以解决离散的、外部的环境变化对机器人系统的影响。实验演示了算法的适用性。