腾讯推出的无训练组相对策略优化(Training-Free GRPO)方法,仅需120元即可显著提升大模型性能,超越70000元的微调方案。该方法通过动态更新经验知识库,无需调整模型参数,降低训练成本,适用于数学推理和网页搜索等任务。实验结果表明,Training-Free GRPO在多个基准测试中表现优异,具有高性价比和有效性。
完成下面两步后,将自动完成登录并继续当前操作。