研究发现,语言模型在生成虚假和欺骗性推理时存在困难。研究人员提出了一种越狱攻击方法,通过利用这一缺陷来获取具有恶意输出的对齐语言模型。研究人员认为这些发现可以扩展到模型安全、自验证和幻觉等领域。
完成下面两步后,将自动完成登录并继续当前操作。