Triggering Language Model Behavior through Investigator Agents

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究探讨了如何通过自由文本提示引发语言模型的特定行为,提出了一种新方法,将目标行为映射到多样化输出提示,实现了100%的攻击成功率和85%的幻觉率。

🎯

关键要点

  • 本研究探讨了如何通过自由文本提示引发语言模型的特定行为。
  • 研究旨在寻找能够引发特定目标行为(如幻觉或有害反应)的提示。
  • 通过训练调查者模型,提出了一种新颖的方法。
  • 该方法能够将随机选择的目标行为映射至多样化的输出提示。
  • 实现了有效的行为引发,部分测试集上达到了100%的攻击成功率和85%的幻觉率。
➡️

继续阅读