本研究提出了一种新方法,通过识别和修改负责安全约束的神经元,诱发大型语言模型的失调,揭示现有对齐技术的脆弱性,并强调需要加强对抗性微调攻击的防御。
本研究提出了NeoRL-2基准,旨在解决离线强化学习中的数据保守性和环境访问限制问题。该基准应对现实世界中的高延迟效应和安全约束,实验结果显示现有方法在这些基准上表现不佳,强调了对更有效算法的需求。
本研究提出了一种基于Wiener核回归的新误差界限,解决了贝叶斯优化在安全约束下的性能问题,结果表明该界限更为紧凑,扩大了安全区域。
本文提出了广义安全探索(GSE)问题,并使用元算法MASE进行解决。该算法结合了强化学习与不确定性量化,确保安全性并对不安全的探索进行惩罚。MASE在优化策略时高概率地保证不违反安全约束,并在方格世界和Safety Gym基准测试中优于现有算法。
本研究探讨了在线强化学习中如何在学习未知环境的同时满足安全约束,提出了针对受约束线性二次调节器的后悔界限,表明安全性提升了探索机会。
本文提出了广义安全探索问题,使用元算法MASE解决。该算法在方格世界和Safety Gym基准测试上表现更好,且没有违反任何安全约束。
该文介绍了一个新的强化学习框架,用于在随机环境中实现安全约束。该算法通过最小化违规行为来保持持续的安全特性,并基于可达性估计来优化该框架。在多个安全强化学习环境中进行评估,结果显示了在提高奖励性能和安全性方面的优势。
该研究提出了一种基于线性时态逻辑的可查询安全约束模块,用于机器人代理的合规性。实验证明该系统适用于复杂的安全约束,具备实际应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。