Exploiting Vulnerabilities: Structured Prison Break Attacks in Multi-Agent Debate Based on LLM 本研究针对多智能体辩论(MAD)框架中存在的监狱破解攻击漏洞进行了系统性调查,揭示了其在复杂任务中的推理能力提升与安全性之间的矛盾。创新性地提出了一种结构化提示重写框架,通过叙事封装、角色驱动升级等方式,显著增加了MAD系统的脆弱性,攻击成功率达到80%以上,强调了在实际部署前需强化安全防护的紧迫性。 本研究系统调查了多智能体辩论框架中的监狱破解攻击漏洞,提出了结构化提示重写框架,显著提高了系统脆弱性,攻击成功率超过80%,强调了加强安全防护的必要性。 llm multi-agent 多智能体 安全防护 攻击成功率 监狱破解 辩论框架