本文介绍了一种新的个性化对齐框架——个性化群体相对策略优化(P-GRPO),旨在解决大型语言模型在满足多样化个体偏好时的不足。P-GRPO通过针对特定偏好组的奖励历史进行优势估计,保持了学习不同偏好的对比信号。研究表明,P-GRPO在多项任务中表现出更快的收敛速度和更高的奖励,能够更好地对齐异质偏好信号。
本研究提出了一种基于21个偏好类别的标准,能够捕捉超过89%的个体偏好变化,强调其在模型评估和训练中的实用性,并提供了对模型对齐的深入见解。
本研究提出了一种新的数字代表模型,通过训练语言代理有效表达个体偏好,解决集体决策中的代表性不足问题。结果表明,经过微调的大型语言模型能够在多样化人群中有效寻找共识。
本研究提出了AlignGroup方法,解决了群体推荐任务中既考虑群体共识又考虑个体偏好的问题。通过超图神经网络学习群体内外关系,并通过自监督对齐任务捕捉群体决策。实验证明,AlignGroup在群体推荐和用户推荐任务中优于现有方法。
完成下面两步后,将自动完成登录并继续当前操作。