小红花·文摘

研究发现，语言模型在生成虚假和欺骗性推理时存在困难。研究人员提出了一种越狱攻击方法，通过利用这一缺陷来获取具有恶意输出的对齐语言模型。研究人员认为这些发现可以扩展到模型安全、自验证和幻觉等领域。