多样性有助于突破大型语言模型的限制
原文中文,约600字,阅读约需2分钟。发表于: 。本研究揭示了一种强大的越狱技术,利用大型语言模型(LLM)在先前上下文中偏离的能力,绕过安全限制并生成有害输出。通过简单地指示LLM偏离和模糊之前的攻击,我们的方法在突破九个领先的聊天机器人(包括GPT-4、Gemini和Llama)方面,成功率高达62%,而查询数量仅为13%。这一发现暴露了现有LLM安全训练中的关键缺陷,表明现有方法可能仅仅是在掩盖漏洞,而非消除它们,因此需要彻底改革测试...
本研究揭示了一种利用大型语言模型(LLM)偏离上下文的越狱技术,成功绕过九个聊天机器人的安全限制,成功率为62%。这表明现有安全训练存在重大缺陷,需改革测试方法以确保LLM的安全性。