机器之心 ·

OpenAI的强化微调：RL+Science 创造新神还是灭霸？

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

OpenAI于2024年12月6日推出了一种新的强化微调方法，旨在通过少量数据构建专家模型，应用于医疗和科学决策等领域。该方法结合了人类反馈的强化学习，有效学习决策过程。尽管技术潜力巨大，但数据集中在非开源公司可能带来安全隐患。

🎯

关键要点

OpenAI于2024年12月6日推出新的强化微调方法，旨在通过少量数据构建专家模型。
该方法适用于医疗和科学决策领域，只需上传几十到几千条训练案例即可微调模型。
新方法结合了人类反馈的强化学习，能够有效学习决策过程。
OpenAI鼓励学者上传独特数据以测试强化微调能力。
该方法的核心是通过人类偏好性数据对齐大模型，使用强化学习算法微调模型参数。
在解决数学和编程问题时，可以生成不同的求解轨迹来提高模型的正确率。
RFT方法需要很少的数据就能学习医疗诊断和科学决策，结合了CoT和RL。
关键在于如何定义RL中的状态转移，找到思维链中的状态表示。
当前技术的局限性在于罕见病诊断的简单性，真正的科学问题更具挑战性。
OpenAI同时推出强化微调研究项目，邀请科研人员提供决策数据集。
集中在非开源公司的科学技术可能带来安全隐患，需谨慎对待。

❓

延伸问答

OpenAI的新强化微调方法有什么特点？

OpenAI的新强化微调方法通过少量数据构建专家模型，适用于医疗和科学决策领域，结合了人类反馈的强化学习。

如何使用OpenAI的强化微调方法进行医疗诊断？

只需上传几十到几千条训练案例，即可通过微调模型来学习医疗诊断过程。

强化微调方法的核心机制是什么？

该方法的核心是通过人类偏好性数据对齐大模型，使用强化学习算法微调模型参数。

OpenAI如何鼓励学者参与强化微调研究？

OpenAI推出了强化微调研究项目，邀请学者上传独特数据以测试其强化微调能力。

该方法在处理罕见病诊断时的局限性是什么？

该方法在罕见病诊断中表现良好，但真正的科学问题更具挑战性，缺乏固定选项和标准答案。

集中在非开源公司的科学技术可能带来什么风险？

集中在非开源公司的科学技术可能导致安全隐患，需谨慎对待其潜在影响。

🏷️

继续阅读

姚顺雨首度公开回应：为什么离开OpenAI加入腾讯？
2026腾讯云AI产业大会在北京举行，姚顺雨首次公开露面，分享了他对AI下半场的看法。他强调AI的核心在于寻找问题，而非技术本身，并指出腾讯的产品环境和组...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
eBay拒绝游戏驿站560亿美元收购提案；OpenAI收购Tomoro并成立新实体；腾讯音乐完成收购喜马拉雅
OpenAI收购咨询公司Tomoro，成立新合资企业以推动人工智能应用。优步提高对Delivery Hero的收购报价。阳狮集团以22亿美元收购LiveR...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...
我用彩色配件定制了一台MacBook Neo
苹果的MacBook Neo是最便宜、色彩丰富且易于维修的笔记本电脑。用户可以自行更换彩色配件，尽管成本较高。作者尝试定制Neo，替换触控板、底壳和键帽，...
论独立游戏的起步立项方法论
独立游戏的成功依赖于立项阶段的清晰规划。开发者需关注可发行最小规格、财务回报率和产品定位，明确目标、合理分配资源，避免过度追求完美，以确保项目按时完成。市...