锚定偏好优化与对比修订:解决对齐中的不足规范问题
原文中文,约500字,阅读约需2分钟。发表于: 。本研究解决了大语言模型对齐过程中存在的不足规范问题,提出了一种新的方法,即从人工修订中进行对比学习(CLAIR),以生成更多的对比偏好对。同时,提出了锚定偏好优化(APO)作为更可控、更稳定的对齐目标。实验结果表明,使用CLAIR生成的偏好数据使模型性能显著提升,提升幅度达到7.65%。
CodeUltraFeedback是一个包含10,000个复杂指令的偏好数据集,用于调整和对齐语言模型与编码偏好。通过使用CodeUltraFeedback的AI反馈数据,CodeLlama-7B-Instruct在CODAL-Bench上优于34B模型。经过优化的CodeLlama模型在HumanEval+上的功能正确性有所改进。这项研究为语言模型对编码偏好的调整和代码智能的发展奠定了基础。