改变提示的蝴蝶效应:小的变化与越狱对大型语言模型的影响
原文中文,约300字,阅读约需1分钟。发表于: 。在这项研究中,我们探究了提示的构建方式对大型语言模型的决策是否产生影响。我们通过一系列针对不同文本分类任务的提示变化进行了实验。研究发现,即使是最小的扰动,如在提示的末尾添加一个空格,都可能导致大型语言模型改变其回答。此外,要求以 XML 格式回应和常用的破解行为可能对大型语言模型标注的数据产生灾难性影响。
本研究调查了Large Language Models(LLMs)中的内容限制和潜在误用的挑战,并研究了与破解LLMs相关的三个关键问题。研究发现了10种不同模式和三种破解提示类别,并评估了ChatGPT版本3.5和4.0中破解提示的能力。研究强调了提示结构在破解LLMs中的重要性,并讨论了生成和防止鲁棒破解提示的挑战。