多样本越狱 [译]

原文约3300字，阅读约需8分钟。发表于：。

Claude 2.1 在处理高达 20 万 Token 的庞大上下文时，检索特定句子的能力令人瞩目。我们通过实验发现，利用精心设计的提示技巧，可以引导 Claude 更准确地回忆出相关信息。

该文章介绍了一种绕过大型语言模型（LLMs）安全限制的“越狱”技术，利用LLMs的上下文窗口特性，通过加入大量文本来迫使LLM输出有害回应。作者分享研究以解决AI的“越狱”问题，并呼吁共享安全漏洞。文章提到了减缓多样本越狱的方法，包括限制输入长度和模型微调。作者呼吁开发者和研究者更多考虑安全威胁防范。