本文介绍了一种新的个性化对齐框架——个性化群体相对策略优化(P-GRPO),旨在解决大型语言模型在满足多样化个体偏好时的不足。P-GRPO通过针对特定偏好组的奖励历史进行优势估计,保持了学习不同偏好的对比信号。研究表明,P-GRPO在多项任务中表现出更快的收敛速度和更高的奖励,能够更好地对齐异质偏好信号。
本研究提出了Persona-judge范式,解决个性化对齐语言模型的计算成本和适应性问题。该方法在未见偏好的情况下实现无训练的个性化对齐,实验表明其是一种可扩展且高效的解决方案,推动了定制对齐的发展。
蚂蚁与人大团队推出AlignXpert个性化对齐大模型,能精准识别用户偏好,并开源130万用户画像数据集。该模型通过上下文对齐和偏好桥接对齐两种方法,提升用户偏好预测准确率17.06%。研究强调个性化对齐的重要性,旨在解决大模型对少数群体声音的忽视问题。
本研究评估了大型语言模型在个性化对齐中的表现,分析了十种主流模型在五种场景下的效果。结果显示,即使是表现最好的模型在理解用户需求时也存在不一致,需改进对齐方法以促进安全的人工智能助手发展。
完成下面两步后,将自动完成登录并继续当前操作。