InfoQ ·

OpenAI在QCon AI NYC：企业的微调

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

在2025年QCon AI NYC大会上，OpenAI的Will Hang介绍了Agent RFT，这是一种强化微调方法，旨在提升工具使用代理的性能。他强调了优化提示和任务的重要性，并提出了监督微调和偏好优化等多种微调选项。Hang指出，强化微调适合需要探索策略的任务，并强调了在整个轨迹中进行信用分配的重要性。Zi展示了实际应用案例，强调了在工具调用预算下的有效内容定位。

🎯

关键要点

在2025年QCon AI NYC大会上，Will Hang介绍了Agent RFT，这是一种强化微调方法，旨在提升工具使用代理的性能。
强调优化提示和任务的重要性，包括简化要求、添加保护措施、改善工具描述和输出。
微调选项被描述为一个光谱，包括监督微调、偏好优化和强化微调。
强化微调适合需要探索策略的任务，强调在整个轨迹中进行信用分配的重要性。
Agent RFT适用于工具使用代理，模型在训练过程中探索不同策略并从评分者那里获得学习信号。
工具输出流回同一上下文窗口，工具调用、输出、推理标记和最终响应形成单一的多步骤轨迹。
强调操作属性不仅仅通过答案准确性来捕捉，包括减少不必要的工具调用和执行预算。
Wenjie Zi展示了实际应用案例，包括在有限工具调用预算下定位相关内容的金融示例。
Zi还描述了在多个领域的更广泛示例，强调规划改进、减少长轨迹尾部和并行工具调用的转变。
开发者可以查看OpenAI的强化微调和模型优化文档，了解更多信息。

🔎

延伸解读

强化微调的应用场景

Agent RFT的强化微调方法特别适合需要探索策略的任务。这种方法允许模型在训练过程中尝试不同的策略，从而在复杂的多步骤任务中获得更好的表现。开发者在应用时应关注任务的复杂性，以便选择合适的微调策略。

工具调用的优化

Hang强调了在工具使用中减少不必要调用的重要性。通过优化工具调用预算，模型可以在保证输出质量的同时，提高效率。这对于需要快速响应的应用场景尤为关键，开发者应考虑如何设计工具调用以减少延迟。

评分机制的多样性

在Agent RFT中，评分者的设计对模型的学习效果至关重要。不同的评分方式，如基于模型的评分和代码评分，可以帮助优化准确性和响应时间。开发者应根据具体应用场景选择合适的评分机制，以提升模型的整体表现。

❓

延伸问答

Agent RFT是什么？

Agent RFT是一种强化微调方法，旨在提升工具使用代理的性能。

在微调过程中，优化提示和任务的重要性是什么？

优化提示和任务可以简化要求、添加保护措施、改善工具描述和输出，从而帮助代理做出更好的决策。

强化微调适合哪些类型的任务？

强化微调适合需要探索策略的任务，尤其是那些涉及长轨迹的任务。

在Agent RFT中，信用分配的重要性是什么？

信用分配在整个轨迹中至关重要，可以根据下游结果强化或抑制早期决策，包括工具选择和调用结构。

Wenjie Zi展示了哪些实际应用案例？

Zi展示了一个金融示例，说明模型如何在有限的工具调用预算下定位相关内容。

开发者如何获取更多关于强化微调的信息？

开发者可以查看OpenAI的强化微调和模型优化文档，了解更多信息。

🏷️