在野外安全地测试语言模型代理

📝

内容提要

在野外安全自主性的先决条件是进行安全的测试。我们提出了一个基于互联网的安全自主智能体测试框架,通过上下文敏感的监视器对智能体的行为进行审计,强制实施严格的安全边界来阻止不安全的测试,并将可疑行为进行排名和记录以供人工审查。我们设计了一个灵活的基础安全监视器来监控现有 LLM 智能体,并使用对抗性模拟智能体来测试其识别和停止不安全情况的能力。然后,我们将安全监视器应用于 AutoGPT...

➡️

继续阅读