机器之心 ·

DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码

💡 原文中文，约5700字，阅读约需14分钟。

📝

内容提要

GRPO算法通过组内样本比较计算策略梯度，降低训练不稳定性并提高效率。Andriy Burkov发布了基于Qwen2.5-1.5B-Instruct模型的GRPO实现教程，涵盖数据准备、评估和奖励函数，最终实现模型微调，显著提升准确率。

🎯

关键要点

GRPO算法通过组内样本比较计算策略梯度，降低训练不稳定性并提高效率。
Andriy Burkov发布了基于Qwen2.5-1.5B-Instruct模型的GRPO实现教程。
教程涵盖数据准备、评估和奖励函数，最终实现模型微调，显著提升准确率。
GRPO算法放弃了critic model和价值函数近似，采用相对比较计算策略梯度。
教程分为多个部分，包括基础设置、数据格式化、数据准备、评估函数、奖励函数、训练设置和执行。
使用GSM8K数据集进行训练，通过强化学习算法为模型提供奖励。
评估函数用于跟踪模型进展，比较预测答案与预期答案。
奖励函数根据生成答案的正确性和格式分配奖励。
从头实现GRPO算法的所有构建模块，使用PyTorch的DataParallel API进行多GPU训练。
训练过程中，模型准确率从23.33%提升至90%。
模型在微调后表现出色，但仍需改进生成序列结束的能力。

❓

延伸问答

GRPO算法的主要优点是什么？

GRPO算法通过组内样本比较计算策略梯度，降低训练不稳定性并提高效率。

Andriy Burkov的GRPO实现教程包含哪些内容？

教程涵盖数据准备、评估和奖励函数，最终实现模型微调。

GRPO算法是如何进行模型微调的？

通过强化学习算法为模型提供奖励，比较生成答案与预期答案，更新模型权重。

使用GRPO算法训练模型的准确率提升了多少？

训练过程中，模型准确率从23.33%提升至90%。

GRPO算法放弃了哪些传统方法？

GRPO算法放弃了critic model和价值函数近似。

在GRPO的实现中使用了哪些工具和库？

使用了PyTorch、Hugging Face Transformers、FlashAttention2和Weights & Biases等工具。

🏷️

继续阅读

分析：AI 助手在回答流媒体可用性查询方面表现不一致
一项分析显示，流媒体影片可用性数据的准确率，ChatGPT为43.76%，Claude为50.21%，而Reelgood高达96.89%。大语言模型在处理...
[折扣代码] ChatGPT商业版向8个国家用户提供买1送1优惠至少开通2个席位
OpenAI推出ChatGPT商业版促销活动，用户开通两个席位可享买一送一优惠。该服务支持八个国家，价格从18英镑到25美元不等，印度区价格最低，约134...
早报｜曝苹果Vision Pro系列被砍/多地高考将查验智能眼镜/DeepSeek首轮融资规模约500亿元
苹果智能眼镜产品线调整，仅剩两款，Vision Pro系列被取消。DeepSeek计划融资500亿元，腾讯和宁德时代为主要投资者。高考将查验智能眼镜，考生...
停止盲目信任AI生成的代码：一个React代码重构案例研究
Vibe Coding是一种软件开发实践，通过简单的英语描述需求，AI生成源代码。尽管AI工具强大，生成的代码可能存在错误和技术债务，开发者需仔细检查。文...
给 WordPress 7.0 的 AI 连接功能加上 DeepSeek 支持
WordPress 7.0 更新了 AI 连接功能，但仅支持国外提供商。为此，开发者推出了 WPJAM AI 插件，支持国内的 DeepSeek 等模型。...
DeepSeek首轮500亿元融资细节曝光：估值4000亿，腾讯、宁德时代都来了
国内AI企业DeepSeek即将完成首轮融资，计划募资约500亿元，投资方包括腾讯和宁德时代。融资后估值预计达3500亿至4000亿元。创始人梁文锋将投入...