大型语言模型在自然语言处理中常用,但生成不可靠内容是个挑战。研究提出自动偏好优化(APO)框架,通过偏好学习减少错误信息。创建了6330个例子和95263对偏好数据。APO在多个数据集上提升了引文F1指标和回答质量。
完成下面两步后,将自动完成登录并继续当前操作。