小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
OpenAI在QCon AI NYC:企业的微调

在2025年QCon AI NYC大会上,OpenAI的Will Hang介绍了Agent RFT,这是一种强化微调方法,旨在提升工具使用代理的性能。他强调了优化提示和任务的重要性,并提出了监督微调和偏好优化等多种微调选项。Hang指出,强化微调适合需要探索策略的任务,并强调了在整个轨迹中进行信用分配的重要性。Zi展示了实际应用案例,强调了在工具调用预算下的有效内容定位。

OpenAI在QCon AI NYC:企业的微调

InfoQ
InfoQ · 2025-12-17T19:25:00Z
Amazon Bedrock 增加了强化微调功能,简化了开发人员构建更智能、更准确的 AI 模型的方式

组织在选择AI模型时可选择通用模型或定制高级模型。强化微调技术通过反馈提升模型性能,平均准确率提高66%。Amazon Bedrock自动化此过程,简化开发,支持高质量输出并降低成本,同时保障数据安全,适合多种业务需求。

Amazon Bedrock 增加了强化微调功能,简化了开发人员构建更智能、更准确的 AI 模型的方式

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-12-08T02:21:32Z

本研究提出了一种新方法——视觉代理强化微调(Visual-ARFT),旨在提升大型视觉语言模型的多模态代理能力。该方法通过实时信息搜索和图像处理,显著增强了模型的推理能力,实验结果表明其在多个基准测试中超越了现有最佳模型,展现了强大的多模态代理潜力。

Visual Agentic Reinforcement Fine-Tuning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本文探讨了前置提示工程(pPE)在强化微调中的应用,结果显示pPE训练的模型性能优于iPE,尤其是null-example pPE方法表现最佳,为RFT研究提供了新方向。

强化微调中的前置提示工程

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

ChatGPT的新功能“深度研究”现已能连接GitHub,用户可以实时获取和分析代码库数据。该功能仍在测试中,未来将向更多用户开放。同时,OpenAI推出了强化微调(RFT),以提升模型在复杂领域的表现。

刚刚,ChatGPT的深度研究可以连接GitHub了!网友:这是真·RAG

量子位
量子位 · 2025-05-09T00:30:05Z
RSS 2025|ConRFT: 真实环境下基于强化学习的VLA模型微调方法

本文提出了一种名为ConRFT的强化微调方法,旨在提升视觉-语言-动作模型(VLA)在真实环境中的表现。该方法分为离线和在线两个阶段,通过一致性策略解决数据稀缺和不一致性问题。实验结果显示,ConRFT在多个操作任务中的成功率达到96.3%,显著优于传统方法,展示了强化学习在机器人应用中的潜力。

RSS 2025|ConRFT: 真实环境下基于强化学习的VLA模型微调方法

机器之心
机器之心 · 2025-04-18T04:05:56Z

本研究提出OpenRFT方法,通过强化微调解决特定领域任务中基础模型的数据不足问题。结果表明,使用100个样本显著提升性能。

OpenRFT: Adapting Reasoning Foundation Models for Specific Domain Tasks through Enhanced Fine-Tuning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-22T00:00:00Z

OpenAI于2024年12月6日推出了一种新的强化微调方法,旨在通过少量数据构建专家模型,应用于医疗和科学决策等领域。该方法结合了人类反馈的强化学习,有效学习决策过程。尽管技术潜力巨大,但数据集中在非开源公司可能带来安全隐患。

OpenAI的强化微调:RL+Science 创造新神还是灭霸?

机器之心
机器之心 · 2024-12-08T06:50:17Z
OpenAI 12连发第2弹:强化微调,少量样本就能训练自己的专家模型

OpenAI推出强化微调技术,允许开发者针对特定任务深度定制模型。该技术通过强化学习提升推理能力,适用于法律、金融等领域,显著提高任务准确性,计划明年正式发布。

OpenAI 12连发第2弹:强化微调,少量样本就能训练自己的专家模型

机器之心
机器之心 · 2024-12-07T08:53:21Z
OpenAI 连续 12 天 AI 发布会:第二天完整视频(中英文双语字幕)

强化微调通过少量数据提升模型在专业领域的推理能力,达到专家水平。与传统微调不同,它采用强化学习算法进行反复训练和验证,适用于法律、金融等领域,帮助用户将优质数据转化为独特产品。

OpenAI 连续 12 天 AI 发布会:第二天完整视频(中英文双语字幕)

宝玉的分享
宝玉的分享 · 2024-12-06T20:00:48Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码