💡
原文中文,约4200字,阅读约需10分钟。
📝
内容提要
本文讨论了基于大语言模型(LLM)的多智能体系统中的知识传播风险,提出了一种两阶段的攻击框架,通过植入和编造知识使智能体传播和改变认知。实验结果表明攻击成功率高,指出多智能体社区对不可信知识传播缺乏防御机制,未来工作可从预防和检测入手提升鲁棒性和安全性。
🎯
关键要点
- 本文讨论了基于大语言模型(LLM)的多智能体系统中的知识传播风险。
- 提出了一种两阶段的攻击框架,通过植入和编造知识使智能体传播和改变认知。
- 实验结果表明攻击成功率高,指出多智能体社区对不可信知识传播缺乏防御机制。
- 未来工作可从预防和检测入手提升鲁棒性和安全性。
- 研究背景提到多个基于LLM的智能体在虚拟小镇上工作和生活的场景。
- 恶意攻击者可能向智能体中植入操控性知识,导致知识传播的风险。
- 构建了一个系统性的模拟环境用于分析多智能体系统的风险。
- 攻击者通过操纵智能体的中间参数,使其自主传播被操控的知识。
- 提出的两阶段攻击方式包括说服性植入和编造知识植入。
- 实验验证了良性智能体对编造知识的抵御能力较弱,容易受到虚假证据的影响。
- 传播成功率随着交互轮数的增加而加深,良性智能体的错误认知逐步加深。
- 植入攻击策略对智能体基础语言能力的影响可以忽略不计,说明方法的隐蔽性。
- 考虑了知识在RAG工具中的存储和传播,发现仍能维持较高的攻击成功率。
- 更大型的多智能体社区相对具有更强的鲁棒性,但仍会受到操纵知识的影响。
- 总结指出当前多智能体社区对不可信知识的传播缺乏有效防御,未来需加强检测和预防。
➡️