CURATRON:大型语言模型鲁棒对齐的完备偏好数据
原文中文,约400字,阅读约需1分钟。发表于: 。通过偏好学习与重新校准数值来解决大型语言模型与人类价值观对齐的挑战,特别关注在偏好数据集中处理不完整和损坏数据的问题,并提出了一种鲁棒且完全重新校准数据集数值的新方法,采用保证多项式时间的排名算法,主要针对经典的 Bradley-Terry-Luce 模型及其某些推广模型,通过实验证实了算法在处理一般和大型语言模型偏好数据集中的对抗噪声和未观察比较方面的鲁棒性。
研究发现,人类对错误不敏感,更倾向于支持自己观点的回答。高级语言模型注重正确性、清晰度和无害性。语言模型的偏好通常相似,无论训练方法如何。评估可以被操纵,与评委偏好一致可提高评分。这种调整对评分有重要影响。