函数调用的阴暗面:大型语言模型破解的途径
原文约400字,阅读约需1分钟。发表于: 。利用对齐差异、用户强迫和缺乏严格的安全过滤器,本研究揭示了大型语言模型中函数调用过程的关键性漏洞,引入了一种新颖的 “越狱函数” 攻击方法。通过对 GPT-4o、Claude-3.5-Sonnet 和 Gemini-1.5-pro 等六种最新技术的大型语言模型的实证研究,发现此攻击的惊人平均成功率超过...
本研究揭示了大型语言模型中函数调用过程的关键性漏洞,引入了一种新颖的“越狱函数”攻击方法。研究发现此攻击的成功率超过90%,并提出了防护策略。研究结果强调了加强大型语言模型函数调用功能的安全措施的紧迫性。