本研究提出了一种从稀疏安全反馈中学习安全度量的方法,解决了安全强化学习中安全定义不明确的问题。通过设计安全模型,估计每个决策步骤对整体安全的影响,实证结果表明其在满足未知安全定义方面的有效性,适用于多种连续控制任务。
本研究提出了一种高效的状态表征学习方法,旨在解决安全强化学习中探索与安全约束的平衡问题。通过自编码器和对比学习,显著提升了稀疏奖励环境中的探索效率,同时确保了安全性。
本研究提出了一种新方法,通过模仿学习识别安全强化学习中多样化任务的共享约束分布,并根据新任务的风险水平进行调整。实验结果表明,该方法在安全性和成功率上优于传统基准,具有广泛的适用性和实践价值。
本研究提出了一种基于有限时域梯度估计的安全强化学习方法(CGPO),有效解决了现有方法在有限时域非折扣约束估计中的问题。研究表明,该方法能够有效估计约束变化,确保安全策略更新的效率和可行性。
本文介绍了一系列安全强化学习算法,包括FAC算法、SEditor、SAAC框架、Unrolling Safety Layer、SMARLA、Safety-Gymnasium、SCPO和SORL。这些方法通过不同技术手段确保强化学习的安全性和可达性,显著降低安全违规率,并在机器人控制等实际应用中表现优越。
本文综述了安全强化学习的现状和未来方向。安全强化学习在传统强化学习中加入安全约束,应用于自动驾驶和机器人等领域。研究方法分为基于模型和无模型,涉及策略优化和控制理论。理论分析关注算法安全性、样本复杂度和收敛性。基准测试环境如AI Safety Gridworlds和Safety Gym用于评估算法性能。未来挑战包括算法扩展性和实时性能。
本研究提出了一种基于模型的安全强化学习方法,扩展了ATACOM安全探索,结合可学习约束,以确保长期安全性并处理不确定性。实验结果表明,该方法在性能上与先进技术相当,同时训练过程更为安全。
本文提出多种新方法以提升推荐系统性能,包括基于级联假设的评估器、安全强化学习中的对抗攻击方法、悲观离线排序学习和风险感知的CLTR方法。这些方法在实验中表现优越,能够提高长期收益、优化排名度量,并增强模型的鲁棒性和安全性。
本文探讨了安全强化学习算法的进展,提出了如Recovery RL和Unrolling Safety Layer等新方法,以提高学习效率和安全性。这些方法在仿真和实际环境中有效减少安全事故并提升任务性能,强调了在机器人技术中整合安全约束的重要性,以应对复杂环境的挑战。
本文介绍了一种基于最大熵强化学习的离线演员-评论家算法Soft Actor-Critic,旨在提高模型的稳定性和训练速度。该算法在多项现实任务中表现优异,尤其在安全强化学习中提出了新的拉格朗日乘数更新方法,以确保策略的安全性和高效性。此外,研究探讨了元强化学习在非稳态环境中的应用,提出了新的无模型安全强化学习算法,显著减少了安全违规并提高了策略回报。
本文探讨了连续控制中动作空间离散化对策略优化的影响,提出了基于神经网络的离散化建模、随机策略表示和带参数的深度 Q 网络(P-DQN)框架等新方法。这些方法在高维连续控制任务中显著提升了性能,并解决了局部最优问题。同时,研究还涉及安全强化学习中的策略分叉现象及其优化算法。
该研究提出了一种基于逆强化学习的异常检测框架,结合神经网络和贝叶斯方法以提高检测的可靠性。通过风险预防训练和无监督学习,显著提升了在线异常检测的性能,并在安全强化学习中设计了动态奖励调整方法,以满足复杂的安全约束。
本文介绍了多个安全强化学习框架和算法,如CBFIRL、可行策略迭代算法和FCSRL,旨在提升学习过程的安全性和稳定性。通过引入控制障碍函数等技术,这些方法在不同任务中表现出更好的安全性和性能,实验结果显示安全性提高了15%至50%。
该研究探讨了语言模型先验(LMPriors)在特征选择、因果推断和安全强化学习等任务中的应用。通过引入正则化项,确保神经翻译模型与语言模型一致,同时不影响解码速度。此外,研究提出了利用大型语言模型(LLM)提供先验信息的方法,强调其在因果图发现中的潜力与局限性。
本文介绍了多种安全强化学习方法,包括可行行动者-评论家算法、RCRL方法和可行策略迭代算法,旨在解决安全约束问题。这些方法在优化代理策略的同时,能够有效满足安全性要求,并在多个基准测试中表现优越。
该论文探讨了在随机和部分未知环境中控制器综合的问题,提出了一种基于安全的马尔可夫决策过程的解决方案。研究了多种安全强化学习方法,强调安全约束与强化学习公式的分离,从而降低计算要求。通过引入安全状态和新的优化方法,提升了学习性能和约束满足能力,并验证了在多种环境中的有效性。
本文回顾了安全强化学习的进展,提出了“2H3W”问题,分析了理论与算法的进展,讨论了样本复杂度及其应用。强调了安全性在实际应用中的重要性,并提出了鲁棒安全框架和高性能控制策略,展示了其在多个领域的有效性和安全性。
本文提出了一种基于随机模型的方法,几乎确定地保证了强化学习的安全性。通过预测状态表示和再生核希尔伯特空间,对未来的多步观测进行了解析表示,并通过核贝叶斯规则导出了关键操作,可以递归估计未来的观测。建立了多项式样本复杂度,确保了 ε- 次优安全策略保证。
该文章提出了一个统一安全强化学习和鲁棒强化学习问题的框架,基于两人零和马尔可夫博弈,提出了双重策略迭代方案和深度强化学习算法DRAC。实验结果显示,DRAC在各种情景下表现出高性能和持续的安全性,优于其他基准算法。
本文介绍了Safety-Gymnasium环境套件和Safe Policy Optimization算法库,包含16种最先进的安全强化学习算法,旨在促进安全性能评估和比较,推动强化学习在更安全、可靠和负责任的实际应用中的发展。
完成下面两步后,将自动完成登录并继续当前操作。