通过ASCII艺术攻击大语言模型和毒性检测系统以掩盖粗俗语言
发表于: 。本研究解决了语言模型无法正确解读ASCII艺术的漏洞,提出了一种新型的对抗性攻击方法。通过开发ToxASCII基准和两种定制的ASCII艺术字体,研究发现这些攻击在十个模型上实现了完美的攻击成功率,展示了潜在的影响力和应用价值。
本研究解决了语言模型无法正确解读ASCII艺术的漏洞,提出了一种新型的对抗性攻击方法。通过开发ToxASCII基准和两种定制的ASCII艺术字体,研究发现这些攻击在十个模型上实现了完美的攻击成功率,展示了潜在的影响力和应用价值。