机器之心 ·

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

💡 原文中文，约6500字，阅读约需16分钟。

📝

内容提要

RTX 3080移动版可用于GRPO训练大型语言模型。GRPO是一种在线学习算法，通过生成的数据进行迭代改进。文章讨论了模型大小选择、显存需求及优化技术，如8-bit优化和梯度检查点，以降低内存占用。实验表明，内存需求随模型大小和训练方式变化，完全微调比PEFT需更多内存。作者使用trl库进行训练，展示了GRPO的潜力和应用。

🎯

关键要点

RTX 3080移动版可用于GRPO训练大型语言模型。
GRPO是一种在线学习算法，通过生成的数据进行迭代改进。
选择模型大小和训练方式（完全微调或PEFT）是微调前的重要决定。
作者使用trl库进行训练，发现显存不足的问题。
实验表明，内存需求随模型大小和训练方式变化，完全微调比PEFT需更多内存。
GRPO对内存需求较高，因为涉及多个模型和多个输出。
8-bit优化和梯度检查点技术可以减少内存占用。
使用8-bit优化器版本可以更高效地存储跟踪数据。
梯度检查点技术可以显著减少内存使用，但会降低训练速度。
GRPO的代码实现简单，最小代码量约99行。
Num Generations超参数决定了每个查询的补全数量，会显著增加VRAM消耗。
影响显存使用的因素包括batch_size、gradient_accumulation_steps和max_prompt_length等。
使用FP16精度训练时，模型参数和优化器状态的内存占用有明确估算。
经过GRPO训练，模型的准确率从19%提升至约40.5%。

❓

延伸问答

GRPO是什么，它的主要功能是什么？

GRPO是一种在线学习算法，通过生成的数据进行迭代改进，旨在最大化生成补全的优势函数。

使用RTX 3080训练GRPO时可能遇到什么问题？

使用RTX 3080训练GRPO时可能会遇到显存不足（OOM）的问题，尤其是在参数设置不当时。

如何通过技术手段减少GRPO的内存占用？

可以使用8-bit优化和梯度检查点技术来减少内存占用，前者提高存储效率，后者通过快照减少内存使用。

完全微调和参数高效微调（PEFT）在内存需求上有什么区别？

完全微调比PEFT需要更多的内存，因为它涉及到更多的模型参数和计算。

Num Generations超参数对内存使用有什么影响？

Num Generations决定每个查询的补全数量，增加该值会显著增加VRAM的消耗。

GRPO训练后模型的准确率提升了多少？

经过GRPO训练，模型的准确率从约19%提升至约40.5%。

🏷️

继续阅读

国产大模型编码能力实测(GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro)
本文对四款国产大模型（GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro）的编码能力进行了实测。结果显示，...
三星表示，内存短缺明年可能会更加严重
三星预测，由于人工智能数据中心的需求，内存短缺将在2027年进一步加剧，预计供需差距将比2026年更大。如果与工会无法达成协议，内存芯片的短缺可能会更加严重。
DeepSeek识图模式是个新模型？！一手实测在此（没错我被灰度到了）
DeepSeek的识图模式在灰度测试中表现优异，支持快速识别和推理。非思考模式下速度快但准确性需提升；思考模式下推理能力强但耗时较长。该模式有效处理OCR...
Microsoft’s Xbox mode is now available for all Windows 11 PCs
Microsoft is now rolling out its Xbox mode to all Windows 11 PCs. The new Xbo...
Meta threatens to pull its apps from New Mexico if forced to make ‘technologically impractical’ changes
Meta says it may be forced to pull Facebook, Instagram, and WhatsApp from New...
With Saros, Housemarque makes a case for doing next-gen games differently
It is generally frowned upon to care too much about appearances. We have a lo...