安全代理基准:具身大型语言模型代理的安全任务规划基准
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究推出安全代理基准(SafeAgentBench),探讨具身代理执行复杂自然语言指令的安全风险。实验基于750个任务的数据集和通用环境,结果显示安全任务成功率为69%,而危险任务拒绝率仅为5%,揭示了潜在的安全隐患。
🎯
关键要点
- 本研究推出安全代理基准(SafeAgentBench)
- 研究具身代理执行复杂自然语言指令的安全风险
- 实验基于750个任务的数据集和通用环境
- 安全任务成功率为69%
- 危险任务拒绝率仅为5%
- 揭示了潜在的安全隐患
➡️