集成价值引导下的推理时语言模型对齐

本研究针对大语言模型在对齐人类偏好时面临的计算复杂性问题，提出了一种新方法“集成价值引导”（IVG）。该方法通过在推理阶段利用隐式和显式价值函数引导语言模型解码，从而实现高效对齐，显著提升了模型在情感生成和总结任务中的表现，并在指令跟随基准测试中验证了其有效性。

Aligner是一种新方法，通过学习对齐未对齐答案的校正残差，提高大型语言模型的对齐效率。它使用有监督学习训练seq2seq模型，避免了强化学习。Aligner显著提升了模型性能，例如对11种LLM的有用性提升18％，无害性提升23％。特别是对Llama2-70B的微调，有用性提高8.2％，无害性提高61.6％。

Aligner 大型语言模型对齐无害性有用性语言模型