小红花·文摘 - 小红花技术领袖俱乐部

研究人员开发了强韧对齐语言模型（RA-LLM），可有效抵御对齐攻击，成功率从近100％降低到约10％或更低。

对大语言模型的对齐感知模型提取攻击

BriefGPT - AI 论文速递 ·

研究人员开发了强韧对齐语言模型（RA-LLM），可防止大型语言模型滥用生成有害内容，无需重训练或微调，实验证明有效。

强化学习能否揭示对齐大型语言模型中的隐藏危险？

BriefGPT - AI 论文速递 ·