大型语言模型对齐的低冗余优化
原文中文,约400字,阅读约需1分钟。发表于: 。在这篇研究论文中,研究人员通过对大型语言模型(LLMs)的经验研究发现了对齐训练中存在的冗余神经元,并提出了一种名为 ALLO 的低冗余对齐方法。该方法通过梯度策略识别与人类偏好数据相关的神经元,通过奖励模型计算损失来识别与对齐相关的关键词汇,并将对齐过程分解为遗忘和学习阶段,通过更新不同比例的神经元实现。实验证明 ALLO 的有效性。
该文章介绍了一种名为Aligner的高效对齐方式,通过学习对齐与未对齐答案之间的校正残差,实现了参数高效的对齐解决方案。Aligner可以通过监督信号微调预训练模型,提高模型性能。实验结果显示,对11种不同的语言模型进行实验,平均提升了18%的有用性和23%的无害性。使用Aligner-7B对Llama2-70B进行微调,可以提高Llama2的有用性8.2%和无害性61.6%。