小红花·文摘

大型语言模型在自然语言处理中常用，但生成不可靠内容是个挑战。研究提出自动偏好优化（APO）框架，通过偏好学习减少错误信息。创建了6330个例子和95263对偏好数据。APO在多个数据集上提升了引文F1指标和回答质量。