量子位 ·

腾讯发布超低成本AI训练法！120元效果秒杀70000元微调方案

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

腾讯推出的无训练组相对策略优化（Training-Free GRPO）方法，仅需120元即可显著提升大模型性能，超越70000元的微调方案。该方法通过动态更新经验知识库，无需调整模型参数，降低训练成本，适用于数学推理和网页搜索等任务。实验结果表明，Training-Free GRPO在多个基准测试中表现优异，具有高性价比和有效性。

🎯

关键要点

腾讯推出无训练组相对策略优化（Training-Free GRPO）方法，成本仅120元。
该方法显著提升大模型性能，超越70000元的微调方案。
Training-Free GRPO通过动态更新经验知识库，无需调整模型参数，降低训练成本。
适用于数学推理和网页搜索等任务，实验结果显示其在多个基准测试中表现优异。
该方法利用轻量级的token先验在上下文中学习经验知识，保持模型参数不变。
Training-Free GRPO通过更新外部经验知识库来实现性能优化，避免了传统方法的高算力成本和数据稀缺问题。
实验表明，Training-Free GRPO在数学推理任务中取得显著提升，使用的训练样本仅为100个。
在网络搜索任务中，该方法在WebWalkerQA基准上实现了67.8%的Pass@1得分，显著高于基线。
研究验证了模型能力与经验优化的有效性之间的关系，基础模型的推理能力是关键因素。

❓

延伸问答

什么是无训练组相对策略优化（Training-Free GRPO）？

无训练组相对策略优化（Training-Free GRPO）是一种新方法，通过动态更新经验知识库来提升大模型性能，无需调整模型参数，成本仅为120元。

Training-Free GRPO与传统微调方法相比有什么优势？

Training-Free GRPO显著降低了训练成本，仅需120元，且在多个基准测试中表现优异，超越了70000元的微调方案。

Training-Free GRPO适用于哪些任务？

该方法适用于数学推理和网页搜索等任务，能够在这些领域中显著提升模型性能。

Training-Free GRPO是如何更新经验知识库的？

Training-Free GRPO通过分析模型输出生成自然语言经验，并动态更新经验知识库，包括添加、删除、修改和保留经验。

实验结果显示Training-Free GRPO的效果如何？

实验表明，Training-Free GRPO在数学推理任务中得分显著提升，使用仅100个训练样本，且无需梯度更新，表现优于传统方法。

Training-Free GRPO的有效性依赖于什么？

该方法的有效性依赖于基础模型在复杂工具使用场景中的推理和工具使用能力，模型能力是关键因素。

🏷️

继续阅读

Article: CodeGuardian: A Model Context Protocol Server for AI-Assisted Code Quality Analysis and Security Scanning
CodeGuardian is an MCP server that extends AI coding assistants with comprehe...
9秒删光公司数据库，我花最贵的钱，买了一个「删库跑路」的AI
PocketOS公司因AI工具Cursor的错误，在9秒内删除了所有生产数据和备份。AI在执行操作时未验证权限，导致严重后果。创始人批评Cursor的安全...
AI真能搞钱了！这家公司把大模型玩成闭环赚钱机器
零犀科技通过自研因果大模型，专注于提升企业销售业绩，实现规模盈利与正现金流。其RaaS模式强调结果导向，帮助客户直接获得业务增量。后训练机制提升了AI的决...
在线教程丨狂揽41k stars，港大团队开源超轻量AI助手nanobot，4000行代码实现OpenClaw核心功能
香港大学数据智能实验室开源了轻量级个人AI助手nanobot，代码量不足4000行，功能强大且易于开发。nanobot支持多种模型接口和工具调用，具备多会...
ASAPP 在 CXP 中推出多个 AI 代理，以提升企业客户服务水平
ASAPP推出了一套AI驱动的客户服务平台CXP，旨在提供端到端的客户服务。该平台通过五种专用代理协同工作，能够自我学习并提供可操作的见解，从而提升客户服...
Copilot从6月1日开始转为按量计费根本原因是GitHub难以承受不断飙涨的成本
GitHub Copilot将于2026年6月1日起实施按量计费模式，因应对不断上涨的成本。每个订阅套餐将获得相应的AI信用点，使用量按tokens计算。...