小红花·文摘

腾讯推出的无训练组相对策略优化（Training-Free GRPO）方法，仅需120元即可显著提升大模型性能，超越70000元的微调方案。该方法通过动态更新经验知识库，无需调整模型参数，降低训练成本，适用于数学推理和网页搜索等任务。实验结果表明，Training-Free GRPO在多个基准测试中表现优异，具有高性价比和有效性。