FreeBuf网络安全行业门户 ·

Agent安全杂谈

💡 原文中文，约5600字，阅读约需14分钟。

📝

内容提要

随着ChatGPT的崛起，LLM进入了Agentic LLM时代，2025年被称为agent元年。agent是能够自主执行任务的系统，结合内部思维与外部行为。LLM agent由模型、工具和提示三部分组成，但面临输入污染和工具滥用等安全风险，需要通过多层防护来确保安全。

🎯

🔎

Agent的概念强调了内部思维与外部行为的结合，这一双重属性决定了人工智能的实现方向。理解这一点有助于开发者在设计智能体时，平衡理性决策与人机协同，确保系统不仅能高效执行任务，还能符合人类的价值观和伦理标准。

随着LLM技术的进步，Agent应用面临的安全风险也在增加。这些风险不仅限于数据层面，还包括输入污染、工具滥用等新型威胁。开发者需关注数据流经各个环节的安全性，实施多层防护措施，以降低潜在的攻击面。

在Agent应用中，用户输入是安全防护的第一道关卡。有效的防护措施如规则特征库过滤和防御性提示设计，可以降低恶意输入的风险。然而，由于自然语言的开放性，完全杜绝风险几乎不可能，因此持续优化防护策略至关重要。

❓

Agent是能够自主执行任务的系统，结合内部思维与外部行为，通过感知环境、规划决策和执行操作实现智能化任务处理。

LLM Agent的基本架构包括模型、工具和提示三部分，此外还需考虑知识库和工作流组件。

Agent应用面临输入污染、工具滥用、知识库泄露等新型安全风险，可能导致全链路攻击。

确保Agent安全性需践行纵深防御，包括前端的语义过滤和防御提示、中台的动态权限控制、后端的工具链管控等。

LLM技术的演变使得安全风险从传统数据风险升级为全链路攻击面，增加了新的攻击向量。

安全对齐是确保AI系统行为与人类价值观一致的核心概念，重要性在于解决AI效率与安全之间的目标冲突。

🏷️