小红花·文摘

最近研究发现，基于大型语言模型构建的自主智能体容易受到一种新型攻击，导致故障率超过80%。为了缓解此类攻击，研究提出了自检检测方法，但发现单纯使用大型语言模型难以有效检测。