对齐器：解耦 LLMs 和对齐

通过使用合成数据训练可调整的模型，我们提出了一种解耦大型语言模型和对齐过程的方法，以确保其在大多数应用中的安全性和实用性，并减少对齐对性能的潜在负面影响。我们通过训练一个 “道德” 对齐器模型并从实证角度验证其有效性来阐明我们的方法。

该文章介绍了一种名为Aligner的高效对齐方式，通过学习对齐与未对齐答案之间的校正残差，实现了参数高效的对齐解决方案。Aligner可以通过监督信号微调预训练模型，提高模型性能。测试结果显示，对11种不同的语言模型进行Aligner微调，平均提升了18%的有用性和23%的无害性。此外，使用Aligner-7B对Llama2-70B进行监督微调，可以提高Llama2的有用性8.2%和无害性61.6%。

Aligner 对齐方式微调校正残差预训练模型