NeMo-Aligner：高效模型对齐的可扩展工具匠

用于大规模语言模型对齐的 NeMo-Aligner 工具包可以高效地扩展到使用数百个 GPU 进行训练，支持 Reinforcement Learning from Human Feedback (RLHF)、Direct Preference Optimization (DPO)、SteerLM、Self-Play Fine-Tuning (SPIN) 等主要模型对齐范式，并具有...

该文章介绍了一种名为Aligner的高效对齐方式，通过学习对齐与未对齐答案之间的校正残差，实现了参数高效的对齐解决方案。Aligner可以通过监督信号微调预训练模型，提高模型性能。实验结果显示，对11种不同的语言模型进行实验，平均提升了18%的有用性和23%的无害性。使用Aligner-7B对Llama2-70B进行微调，可以提高Llama2的有用性8.2%和无害性61.6%。

Aligner 对齐方式微调校正残差预训练模型