本研究提出了一种新的对齐方法——创造性偏好优化(CrPO),旨在提升大型语言模型(LLMs)生成创造性内容的能力。研究结果表明,应用CrPO后,模型在新颖性、多样性和惊喜性方面优于现有基准。
完成下面两步后,将自动完成登录并继续当前操作。