RAIN: 语言模型可以自动对齐,无需微调

通过整合自评和倒带机制,本研究发现未对齐的大型语言模型(LLMs)可以通过自我增强直接生成与人类偏好一致的回答。引入一种新的推理方法 Rewindable Auto-regressive INference(RAIN),允许预训练的 LLMs 评估自身生成,并利用评估结果对维护 AI 安全进行倒带回溯和前向生成,无需额外数据进行模型对齐,也无需训练、渐变计算或参数更新。实验证明 RAIN...

本研究提出了一种新的推理方法RAIN,通过整合自评和倒带机制,可以直接生成与人类偏好一致的回答,无需额外数据进行模型对齐。实验证明RAIN有效,改善了LLaMA 30B模型的无害率,同时在对抗性攻击下降低了攻击成功率。

原文中文,约400字,阅读约需1分钟。发表于:
阅读原文