InfoQ ·

可信的生产力：保障人工智能加速发展的安全性

💡 原文英文，约3300词，阅读约需12分钟。

📝

内容提要

在代理系统中，需将所有输入视为不可信，实施来源验证和权限控制以防止攻击。应分离规划与监督，使用短期凭证和沙箱环境限制工具访问。通过STRIDE和MAESTRO模型进行威胁建模，记录代理循环并逐步增强安全性。确保代理执行任务时有明确界限和人类监督，以防止潜在灾难性后果。

🎯

🔎

在代理系统中，所有输入都应被视为不可信，这意味着即使是来自内部系统的信息也可能存在风险。文章强调了实施来源验证和权限控制的重要性，以防止潜在的攻击和数据污染。读者应关注如何在设计代理系统时，确保信息来源的可靠性和安全性。

文章指出，确保代理执行任务时有明确的界限和人类监督是防止灾难性后果的关键。随着代理系统的自主性增强，如何有效地将人类决策融入到自动化流程中，成为了一个重要的实践课题。读者应考虑在其应用中如何平衡自动化与人类干预。

采用STRIDE和MAESTRO模型进行威胁建模，可以系统性地识别代理循环中的具体威胁。这种方法不仅有助于理解潜在的安全风险，还能为制定相应的防护措施提供依据。读者在构建代理系统时，应重视威胁建模的过程，以增强系统的安全性。

❓

在代理系统中，所有输入都应视为不可信，需实施来源验证和权限控制以防止攻击。

STRIDE是一个安全威胁模型，涵盖伪造、篡改等威胁；MAESTRO是一个七层参考模型，用于识别代理系统中的威胁。

应使用短期凭证和沙箱环境来限制工具的访问范围，降低风险。

常见的上下文失败模式包括记忆污染、特权崩溃和沟通漂移。

应定义代理的自主权边界，确保在关键决策中有人类参与，以防止潜在的灾难性后果。

代理生成的代码应在隔离的环境中运行，以防止潜在的安全漏洞。

🏷️