小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了S-GRPO和T-SPMO两种方法，提升了Qwen2-1.5B模型在SVAMP基准测试中的准确性，验证了在资源有限情况下强化学习调优的潜力。

Reinforcement Learning-Based LLM Inference Under Memory Constraints

BriefGPT - AI 论文速递 ·