本文介绍了一种新的个性化对齐框架——个性化群体相对策略优化(P-GRPO),旨在解决大型语言模型在满足多样化个体偏好时的不足。P-GRPO通过针对特定偏好组的奖励历史进行优势估计,保持了学习不同偏好的对比信号。研究表明,P-GRPO在多项任务中表现出更快的收敛速度和更高的奖励,能够更好地对齐异质偏好信号。
本文讨论了群体相对策略优化(GRPO)及其与策略优化(PO)的关系,重点在于GRPO的优势计算方法。GRPO通过不同的响应来估计优势,简化了传统的价值模型需求。研究表明,优化策略需关注样本长度和优势计算,以提高推理模型的性能。
DeepSeek开源了DeepSeek-R1,这是一个通过强化学习微调的语言模型,显著提升了推理能力。在多个基准测试中,DeepSeek-R1超越了GPT-4等大型模型,尤其在数学和编码任务上表现突出。该模型基于DeepSeek-V3,采用群体相对策略优化(GRPO)进行微调,在创意写作、问答和长文本理解等任务中表现卓越。
完成下面两步后,将自动完成登录并继续当前操作。