InfoQ ·

OpenAI在QCon AI NYC：企业的微调

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

在2025年QCon AI NYC大会上，OpenAI的Will Hang介绍了Agent RFT，这是一种强化微调方法，旨在提升工具使用代理的性能。他强调了优化提示和任务的重要性，并提出了监督微调和偏好优化等多种微调选项。Hang指出，强化微调适合需要探索策略的任务，并强调了在整个轨迹中进行信用分配的重要性。Zi展示了实际应用案例，强调了在工具调用预算下的有效内容定位。

🎯

关键要点

在2025年QCon AI NYC大会上，Will Hang介绍了Agent RFT，这是一种强化微调方法，旨在提升工具使用代理的性能。
强调优化提示和任务的重要性，包括简化要求、添加保护措施、改善工具描述和输出。
微调选项被描述为一个光谱，包括监督微调、偏好优化和强化微调。
强化微调适合需要探索策略的任务，强调在整个轨迹中进行信用分配的重要性。
Agent RFT适用于工具使用代理，模型在训练过程中探索不同策略并从评分者那里获得学习信号。
工具输出流回同一上下文窗口，工具调用、输出、推理标记和最终响应形成单一的多步骤轨迹。
强调操作属性不仅仅通过答案准确性来捕捉，包括减少不必要的工具调用和执行预算。
Wenjie Zi展示了实际应用案例，包括在有限工具调用预算下定位相关内容的金融示例。
Zi还描述了在多个领域的更广泛示例，强调规划改进、减少长轨迹尾部和并行工具调用的转变。
开发者可以查看OpenAI的强化微调和模型优化文档，了解更多信息。

🏷️

继续阅读

为何语音技术正在胜出：企业 AI 界面正在崛起
语音技术正迅速成为人与技术的主要交互方式。IBM与Deepgram的合作将语音转文本和文本转语音功能集成到企业中，提升了语音AI的可靠性和应用范围，推动了企业AI的演进。
AI 时代的人类处境：科技、宗教与生命意义的重构
在AI时代，科技与宗教的关系需重新审视。科技改变人与世界的互动，但无法消解人类对意义和死亡的思考。宗教应超越消费，关注真实修行。科学与宗教的关系可视为对立...
央视点赞千问APP，“AI办事”让人工智能走进日常生活
央视点赞千问APP，推动AI办事进入日常生活。该APP通过语音交互满足个性化需求，受到大众，尤其是老年群体的欢迎。春节期间，1.3亿人体验AI下单，显示中...
OpenAI也向开源项目开发者/维护者推出福利计划免费领取半年ChatGPT Pro订阅
OpenAI 向开源项目开发者提供 6 个月的 ChatGPT Pro 订阅，无需硬性要求，只要项目具有广泛使用或重要性即可申请，包含 Codex 安全功...
AI 时代的新王座：为什么说 Go 可能是开发 AI Agent 的最佳语言？
随着AI应用的发展，Go语言因其高并发、易于部署和跨平台能力，逐渐成为AI代理开发的首选。尽管Python在数据科学中占主导地位，Go在基础设施层面的编译...
如何使用GitHub安全实验室的开源AI驱动框架扫描安全漏洞
我们利用GitHub安全实验室的任务流代理，成功发现80多个开源项目中的高影响力安全漏洞，主要涉及授权绕过和信息泄露。新任务流提高了结果验证和报告发布的效...

OpenAI在QCon AI NYC：企业的微调

内容提要

关键要点

标签

继续阅读