小红花·文摘

多目标直接偏好优化（MODPO）是一种高效算法，通过多个反馈和加权收益模型训练语言模型，以满足不同偏好。研究表明，DPO方法在生成分子时能更好地对齐化学家偏好，且计算资源需求较低。本文还提出了因果偏好优化（CPO）和群体偏好优化框架，显著提高了大型语言模型的对齐效果和翻译性能。