小红花·文摘 - 小红花技术领袖俱乐部

个性化群体相对策略优化用于异质偏好对齐

个性化群体相对策略优化用于异质偏好对齐

Apple Machine Learning Research ·

本文讨论了群体相对策略优化（GRPO）及其与策略优化（PO）的关系，重点在于GRPO的优势计算方法。GRPO通过不同的响应来估计优势，简化了传统的价值模型需求。研究表明，优化策略需关注样本长度和优势计算，以提高推理模型的性能。

GRPO的新变体及其实现秘密

Josherich的博客 ·

DeepSeek开源DeepSeek-R1语言模型，其性能可与OpenAI的o1模型媲美

DeepSeek开源DeepSeek-R1语言模型，其性能可与OpenAI的o1模型媲美

InfoQ ·