小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
OpenAI在QCon AI NYC:企业的微调

在2025年QCon AI NYC大会上,OpenAI的Will Hang介绍了Agent RFT,这是一种强化微调方法,旨在提升工具使用代理的性能。他强调了优化提示和任务的重要性,并提出了监督微调和偏好优化等多种微调选项。Hang指出,强化微调适合需要探索策略的任务,并强调了在整个轨迹中进行信用分配的重要性。Zi展示了实际应用案例,强调了在工具调用预算下的有效内容定位。

OpenAI在QCon AI NYC:企业的微调

InfoQ
InfoQ · 2025-12-17T19:25:00Z
Amazon Bedrock 增加了强化微调功能,简化了开发人员构建更智能、更准确的 AI 模型的方式

组织在选择AI模型时可选择通用模型或定制高级模型。强化微调技术通过反馈提升模型性能,平均准确率提高66%。Amazon Bedrock自动化此过程,简化开发,支持高质量输出并降低成本,同时保障数据安全,适合多种业务需求。

Amazon Bedrock 增加了强化微调功能,简化了开发人员构建更智能、更准确的 AI 模型的方式

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-12-08T02:21:32Z

本研究提出了一种新方法——视觉代理强化微调(Visual-ARFT),旨在提升大型视觉语言模型的多模态代理能力。该方法通过实时信息搜索和图像处理,显著增强了模型的推理能力,实验结果表明其在多个基准测试中超越了现有最佳模型,展现了强大的多模态代理潜力。

Visual Agentic Reinforcement Fine-Tuning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本文探讨了前置提示工程(pPE)在强化微调中的应用,结果显示pPE训练的模型性能优于iPE,尤其是null-example pPE方法表现最佳,为RFT研究提供了新方向。

强化微调中的前置提示工程

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

ChatGPT的新功能“深度研究”现已能连接GitHub,用户可以实时获取和分析代码库数据。该功能仍在测试中,未来将向更多用户开放。同时,OpenAI推出了强化微调(RFT),以提升模型在复杂领域的表现。

刚刚,ChatGPT的深度研究可以连接GitHub了!网友:这是真·RAG

量子位
量子位 · 2025-05-09T00:30:05Z
RSS 2025|ConRFT: 真实环境下基于强化学习的VLA模型微调方法

本文提出了一种名为ConRFT的强化微调方法,旨在提升视觉-语言-动作模型(VLA)在真实环境中的表现。该方法分为离线和在线两个阶段,通过一致性策略解决数据稀缺和不一致性问题。实验结果显示,ConRFT在多个操作任务中的成功率达到96.3%,显著优于传统方法,展示了强化学习在机器人应用中的潜力。

RSS 2025|ConRFT: 真实环境下基于强化学习的VLA模型微调方法

机器之心
机器之心 · 2025-04-18T04:05:56Z

本研究提出OpenRFT方法,通过强化微调解决特定领域任务中基础模型的数据不足问题。结果表明,使用100个样本显著提升性能。

OpenRFT: Adapting Reasoning Foundation Models for Specific Domain Tasks through Enhanced Fine-Tuning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-22T00:00:00Z

OpenAI于2024年12月6日推出了一种新的强化微调方法,旨在通过少量数据构建专家模型,应用于医疗和科学决策等领域。该方法结合了人类反馈的强化学习,有效学习决策过程。尽管技术潜力巨大,但数据集中在非开源公司可能带来安全隐患。

OpenAI的强化微调:RL+Science 创造新神还是灭霸?

机器之心
机器之心 · 2024-12-08T06:50:17Z
OpenAI 12连发第2弹:强化微调,少量样本就能训练自己的专家模型

OpenAI推出强化微调技术,允许开发者针对特定任务深度定制模型。该技术通过强化学习提升推理能力,适用于法律、金融等领域,显著提高任务准确性,计划明年正式发布。

OpenAI 12连发第2弹:强化微调,少量样本就能训练自己的专家模型

机器之心
机器之心 · 2024-12-07T08:53:21Z
OpenAI 连续 12 天 AI 发布会:第二天完整视频(中英文双语字幕)

强化微调通过少量数据提升模型在专业领域的推理能力,达到专家水平。与传统微调不同,它采用强化学习算法进行反复训练和验证,适用于法律、金融等领域,帮助用户将优质数据转化为独特产品。

OpenAI 连续 12 天 AI 发布会:第二天完整视频(中英文双语字幕)

宝玉的分享
宝玉的分享 · 2024-12-06T20:00:48Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码