量子位 ·

ChatGPT后训练方法被OpenAI离职联创公开，PPT全网转～

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

OpenAI前联合创始人John Schulman和前VP Barret Zoph在离职后分享了ChatGPT后训练方法的经验与挑战，涵盖模型微调、奖励模型训练和强化学习等内容，强调后训练的重要性及保持模型多样性和趣味性。他们现已加入新创业团队Thinking Machines Lab。

🎯

关键要点

OpenAI前联合创始人John Schulman和前VP Barret Zoph分享了ChatGPT后训练方法的经验与挑战。
后训练阶段是模型开发的最后一步，旨在让模型更像助手并适合实际生产环境。
后训练包含三个主要组成部分：监督微调（SFT）、奖励模型（RM）训练和强化学习（RL）。
ChatGPT的早期发展历程包括GPT-3、GPT-3.5和GPT-4的发布及其成功。
在功能扩展和公司规模增长的背景下，通过主线模型整合变化并降低风险。
模型生成文本时出现拼写错误和过度拒绝的情况，需通过改进和数据处理解决。
保持模型多样性和趣味性是一个开放性问题，需通过后训练迭代和模型蒸馏来实现。
John Schulman和Barret Zoph现已加入新创业团队Thinking Machines Lab，担任重要职务。

❓

延伸问答

ChatGPT的后训练阶段包括哪些主要组成部分？

后训练阶段包括监督微调（SFT）、奖励模型（RM）训练和强化学习（RL）。

John Schulman和Barret Zoph在OpenAI的角色是什么？

John Schulman是OpenAI的联合创始人，曾负责后训练，Barret Zoph是前VP，负责后训练研究。

后训练的主要目标是什么？

后训练的主要目标是让模型更像助手，遵循特定格式，并确保适合实际生产环境。

在后训练过程中遇到的主要挑战有哪些？

主要挑战包括模型生成文本时的拼写错误、过度拒绝行为和偏见问题。

John Schulman和Barret Zoph离开OpenAI后做了什么？

他们加入了新创业团队Thinking Machines Lab，担任重要职务。

如何保持模型的多样性和趣味性？

可以通过后训练迭代和模型蒸馏来保持或强化模型的多样性和趣味性。

🏷️

继续阅读

LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调
本文讨论了在真实世界中部署通用机器人策略的挑战，提出了一种名为“部署中学习”（LWD）的框架，通过车队规模的离线到在线强化学习（RL）实现策略的持续改进。...
埃隆·马斯克确认xAI使用OpenAI的模型来训练Grok
埃隆·马斯克在加州法庭作证称，他的AI初创公司xAI使用了OpenAI的模型来提升技术。他提到“模型蒸馏”是行业常见做法，允许大型AI模型作为“教师”训练...
解读OpenAI与微软的重置：为何AWS可能会占据优势
OpenAI与微软的合作关系经历波折，最近宣布与亚马逊云服务（AWS）建立新合作，允许OpenAI的模型在AWS上运行。这一变化使OpenAI能够在多个云...
埃隆·马斯克与山姆·阿尔特曼关于OpenAI未来的法律斗争
埃隆·马斯克与山姆·阿尔特曼之间的法律斗争即将开始，涉及OpenAI的未来。马斯克指控OpenAI偏离了最初使命，追求利润，并要求解除阿尔特曼和布罗克曼的...
微软与OpenAI新协议的详细解析
微软与OpenAI达成新协议，允许OpenAI在所有云平台上提供服务，尽管与亚马逊的合作令微软不满。协议取消了与人工通用智能（AGI）相关的条款，使双方关...
OpenAI谈论不谈论妖精
OpenAI 近日解释了其模型中关于“妖精”和“怪物”的奇怪习惯。随着 GPT-5.1 的“书呆子”个性发布，这些生物的隐喻开始频繁出现。尽管在停止该个性...