小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种新方法,通过识别和修改负责安全约束的神经元,诱发大型语言模型的失调,揭示现有对齐技术的脆弱性,并强调需要加强对抗性微调攻击的防御。

NeuRel-Attack: Neural Relearning of Neurons for Security Disruption in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-29T00:00:00Z

本研究提出了NeoRL-2基准,旨在解决离线强化学习中的数据保守性和环境访问限制问题。该基准应对现实世界中的高延迟效应和安全约束,实验结果显示现有方法在这些基准上表现不佳,强调了对更有效算法的需求。

NeoRL-2: Near Real-World Benchmarks for Offline Reinforcement Learning with Extended Realistic Scenarios

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z

本研究提出了一种基于Wiener核回归的新误差界限,解决了贝叶斯优化在安全约束下的性能问题,结果表明该界限更为紧凑,扩大了安全区域。

基于Wiener核回归的安全贝叶斯优化研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-04T00:00:00Z

本文提出了广义安全探索(GSE)问题,并使用元算法MASE进行解决。该算法结合了强化学习与不确定性量化,确保安全性并对不安全的探索进行惩罚。MASE在优化策略时高概率地保证不违反安全约束,并在方格世界和Safety Gym基准测试中优于现有算法。

安全和模型无关强化学习的渐进保障

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

本研究探讨了在线强化学习中如何在学习未知环境的同时满足安全约束,提出了针对受约束线性二次调节器的后悔界限,表明安全性提升了探索机会。

Stronger Safety Regret Bounds in Online Reinforcement Learning: A Case Study of Linear Quadratic Regulators

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本文提出了广义安全探索问题,使用元算法MASE解决。该算法在方格世界和Safety Gym基准测试上表现更好,且没有违反任何安全约束。

强化学习中的安全探索:广义形式与算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-05T00:00:00Z

该文介绍了一个新的强化学习框架,用于在随机环境中实现安全约束。该算法通过最小化违规行为来保持持续的安全特性,并基于可达性估计来优化该框架。在多个安全强化学习环境中进行评估,结果显示了在提高奖励性能和安全性方面的优势。

安全强化学习中的迭代可达性估计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-24T00:00:00Z

该研究提出了一种基于线性时态逻辑的可查询安全约束模块,用于机器人代理的合规性。实验证明该系统适用于复杂的安全约束,具备实际应用潜力。

安全芯片插入:强制 LLM 驱动的机器人代理遵守限制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-18T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码