小红花·文摘

本研究提出了一种新的对齐方法——创造性偏好优化（CrPO），旨在提升大型语言模型（LLMs）生成创造性内容的能力。研究结果表明，应用CrPO后，模型在新颖性、多样性和惊喜性方面优于现有基准。