安全代理基准:具身大型语言模型代理的安全任务规划基准
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究推出安全代理基准(SafeAgentBench),探讨具身代理执行复杂自然语言指令的安全风险。实验基于750个任务的数据集和通用环境,结果显示安全任务成功率为69%,而危险任务拒绝率仅为5%,揭示了潜在的安全隐患。
🎯
关键要点
-
本研究推出安全代理基准(SafeAgentBench)
-
研究具身代理执行复杂自然语言指令的安全风险
-
实验基于750个任务的数据集和通用环境
-
安全任务成功率为69%
-
危险任务拒绝率仅为5%
-
揭示了潜在的安全隐患
🏷️