BriefGPT - AI 论文速递 ·

鲁棒即插即用适应性的解耦对齐

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文介绍了一种名为Aligner的新方法，通过有监督学习对大型语言模型进行高效对齐，提升模型的有用性和无害性。Aligner在多个模型上实现了显著性能提升，并通过InferAligner降低有害输入的攻击成功率。此外，研究探讨了隐私保护对齐和辩证对齐模型，以增强系统安全性。

🎯

❓

Aligner通过有监督学习对大型语言模型进行高效对齐，提升模型的有用性和无害性。

Aligner在11种不同的语言模型上平均提升了18%的有用性和23%的无害性，GPT-4的提升分别为26.9%和17.5%。

InferAligner有效降低了有害输入指令和越狱攻击的成功率，同时保持了下游任务性能的基本不变。

隐私保护对齐在保护隐私的同时提供了竞争力的效果，实验结果验证了其有效性。

辩证对齐模型用于调整大语言模型在不同外部证据冲突下的内部状态，以提高系统的安全性。

RAIN允许预训练的语言模型评估自身生成，改善了无害率并降低了对抗性攻击的成功率。

🏷️