小红花·文摘 - 小红花技术领袖俱乐部

OpenAI在QCon AI NYC：企业的微调

InfoQ ·

Amazon Bedrock 增加了强化微调功能，简化了开发人员构建更智能、更准确的 AI 模型的方式

Amazon Bedrock 增加了强化微调功能，简化了开发人员构建更智能、更准确的 AI 模型的方式

亚马逊AWS官方博客 ·

本研究提出了一种新方法——视觉代理强化微调（Visual-ARFT），旨在提升大型视觉语言模型的多模态代理能力。该方法通过实时信息搜索和图像处理，显著增强了模型的推理能力，实验结果表明其在多个基准测试中超越了现有最佳模型，展现了强大的多模态代理潜力。

Visual Agentic Reinforcement Fine-Tuning

BriefGPT - AI 论文速递 ·

本文探讨了前置提示工程（pPE）在强化微调中的应用，结果显示pPE训练的模型性能优于iPE，尤其是null-example pPE方法表现最佳，为RFT研究提供了新方向。

强化微调中的前置提示工程

BriefGPT - AI 论文速递 ·

ChatGPT的新功能“深度研究”现已能连接GitHub，用户可以实时获取和分析代码库数据。该功能仍在测试中，未来将向更多用户开放。同时，OpenAI推出了强化微调（RFT），以提升模型在复杂领域的表现。

刚刚，ChatGPT的深度研究可以连接GitHub了！网友：这是真·RAG

量子位 ·

RSS 2025｜ConRFT: 真实环境下基于强化学习的VLA模型微调方法

RSS 2025｜ConRFT: 真实环境下基于强化学习的VLA模型微调方法

机器之心 ·

本研究提出OpenRFT方法，通过强化微调解决特定领域任务中基础模型的数据不足问题。结果表明，使用100个样本显著提升性能。

OpenRFT: Adapting Reasoning Foundation Models for Specific Domain Tasks through Enhanced Fine-Tuning

BriefGPT - AI 论文速递 ·

OpenAI于2024年12月6日推出了一种新的强化微调方法，旨在通过少量数据构建专家模型，应用于医疗和科学决策等领域。该方法结合了人类反馈的强化学习，有效学习决策过程。尽管技术潜力巨大，但数据集中在非开源公司可能带来安全隐患。

OpenAI的强化微调：RL+Science 创造新神还是灭霸？

机器之心 ·

OpenAI 12连发第2弹：强化微调，少量样本就能训练自己的专家模型

OpenAI 12连发第2弹：强化微调，少量样本就能训练自己的专家模型

机器之心 ·

OpenAI 连续 12 天 AI 发布会：第二天完整视频（中英文双语字幕）

OpenAI 连续 12 天 AI 发布会：第二天完整视频（中英文双语字幕）

宝玉的分享 ·