小红花·文摘

本研究提出了一种新方法，通过识别和修改负责安全约束的神经元，诱发大型语言模型的失调，揭示现有对齐技术的脆弱性，并强调需要加强对抗性微调攻击的防御。

BriefGPT - AI 论文速递 ·

本研究提出了NeoRL-2基准，旨在解决离线强化学习中的数据保守性和环境访问限制问题。该基准应对现实世界中的高延迟效应和安全约束，实验结果显示现有方法在这些基准上表现不佳，强调了对更有效算法的需求。

BriefGPT - AI 论文速递 ·

本研究提出了一种新的量化约束强化学习方法，有效解决了以往安全约束表达不足的问题。该方法通过倾斜量化梯度更新，在满足安全要求的同时显著提升了回报性能，超越了现有基准。

BriefGPT - AI 论文速递 ·

本研究提出了一种基于Wiener核回归的新误差界限，解决了贝叶斯优化在安全约束下的性能问题，结果表明该界限更为紧凑，扩大了安全区域。

BriefGPT - AI 论文速递 ·

本研究探讨了在线强化学习中如何在学习未知环境的同时满足安全约束，提出了针对受约束线性二次调节器的后悔界限，表明安全性提升了探索机会。

BriefGPT - AI 论文速递 ·

本文探讨了安全强化学习算法的进展，提出了如Recovery RL和Unrolling Safety Layer等新方法，以提高学习效率和安全性。这些方法在仿真和实际环境中有效减少安全事故并提升任务性能，强调了在机器人技术中整合安全约束的重要性，以应对复杂环境的挑战。

BriefGPT - AI 论文速递 ·

本文研究了薪水优化与多目标强化学习，提出了一种新算法以平衡多个财务目标和安全约束。通过强化学习和在线凸优化，确保在未知环境中实现公平性，并展示了算法在复杂任务中的有效性和优势。

BriefGPT - AI 论文速递 ·

本文介绍了多种安全强化学习方法，包括可行行动者-评论家算法、RCRL方法和可行策略迭代算法，旨在解决安全约束问题。这些方法在优化代理策略的同时，能够有效满足安全性要求，并在多个基准测试中表现优越。

BriefGPT - AI 论文速递 ·

该论文探讨了在随机和部分未知环境中控制器综合的问题，提出了一种基于安全的马尔可夫决策过程的解决方案。研究了多种安全强化学习方法，强调安全约束与强化学习公式的分离，从而降低计算要求。通过引入安全状态和新的优化方法，提升了学习性能和约束满足能力，并验证了在多种环境中的有效性。

BriefGPT - AI 论文速递 ·

本文介绍了一种名为SAFE-BOCP的基于安全约束的贝叶斯优化算法，能够在确保安全的前提下快速优化机器人算法参数。同时，研究提出了StageOpt算法，解决了优化未知效用函数的安全性问题，并通过实验验证了其在扩展安全区域和最大化效用方面的高效性。

BriefGPT - AI 论文速递 ·

本文提出了广义安全探索问题，使用元算法MASE解决。该算法在方格世界和Safety Gym基准测试上表现更好，且没有违反任何安全约束。

BriefGPT - AI 论文速递 ·

该文介绍了一个新的强化学习框架，用于在随机环境中实现安全约束。该算法通过最小化违规行为来保持持续的安全特性，并基于可达性估计来优化该框架。在多个安全强化学习环境中进行评估，结果显示了在提高奖励性能和安全性方面的优势。

BriefGPT - AI 论文速递 ·

该研究提出了一种基于线性时态逻辑的可查询安全约束模块，用于机器人代理的合规性。实验证明该系统适用于复杂的安全约束，具备实际应用潜力。

BriefGPT - AI 论文速递 ·