小红花·文摘

本文介绍了一种名为Aligner的新方法，通过有监督学习对大型语言模型（LLM）进行高效对齐，提升模型的有用性和无害性。Aligner在多个LLM上平均提高了18%的有用性和23%的无害性，尤其在Llama2-70B上表现显著。此外，研究探讨了利用合成数据和自定义奖励函数改善对齐目标的方法，并提出了“扩展-猜测-精化”的医学问答对齐策略，显著提升模型性能。