对齐器:解耦 LLMs 和对齐
BriefGPT - AI 论文速递 · 2024-03-07T00:00:00Z
该文章介绍了一种名为Aligner的高效对齐方式,通过学习对齐与未对齐答案之间的校正残差,实现了参数高效的对齐解决方案。Aligner可以通过监督信号微调预训练模型,提高模型性能。测试结果显示,对11种不同的语言模型进行Aligner微调,平均提升了18%的有用性和23%的无害性。此外,使用Aligner-7B对Llama2-70B进行监督微调,可以提高Llama2的有用性8.2%和无害性61.6%。
原文中文,约400字,阅读约需1分钟。