恶魔天才：深入探究基于 LLM 的智能体的安全性

通过对大型语言模型（LLMs）进行安全评估，揭示了 LLM-based agents 面临的挑战、安全漏洞以及对未来研究的启示。

本研究探索了大型语言模型在威胁推理、工具信息生成和自动化网络攻击方面的潜力，讨论了 LLM 在支持特定威胁相关行动和决策方面的手动与自动化探索，以及对威胁网络潜在影响和使用 LLM 加速威胁行为能力的伦理考量，对诱导可操作反应的提示设计进行了评估和启发，并提出了探索 LLM 在更复杂网络、高级漏洞和提示敏感性方面的未解问题。

llm 伦理考量大型语言模型威胁推理安全性工具信息生成智能体自动化网络攻击