Hummer: 朝着有限竞争偏好数据集的方向
原文中文,约500字,阅读约需2分钟。发表于: 。引入了一种新的统计度量指标,即 Alignment Dimension Conflict,用于量化偏好数据集内部的冲突程度。提出了 Hummer 和 Hummer-F 这两个创新的成对偏好数据集,并开发了 HummerRM 和 HummerRM-F 这两个奖励模型,有效平衡多样的对齐目标,适用于领域特定的进一步微调和减少攻击的弱点。
CodeUltraFeedback是一个包含10,000个复杂指令的偏好数据集,用于调整和对齐语言模型与编码偏好。通过使用AI反馈数据和增强学习方法,CodeLlama-7B-Instruct在评估基准上优于34B模型。此外,经过优化的CodeLlama模型在功能正确性上也有所改进。这项研究为语言模型对编码偏好的调整和代码智能的发展提供了基础。