小红花·文摘

本研究推出安全代理基准（SafeAgentBench），探讨具身代理执行复杂自然语言指令的安全风险。实验基于750个任务的数据集和通用环境，结果显示安全任务成功率为69%，而危险任务拒绝率仅为5%，揭示了潜在的安全隐患。