小红花·文摘

本文介绍了Graph Agent Network（GAgN），一种用于抵抗节点分类攻击的图结构代理网络。GAgN通过去中心化交互学习节点的全局感知，防止恶意消息传播，并在扰动数据集上实现最佳分类准确性。此外，研究探讨了大型语言模型（LLMs）的安全性，提出了SALAD-Bench和AgentHarm基准，评估LLMs在面对攻击时的表现及其防御能力，发现现有模型对恶意请求的顺从性问题。