量子位 ·

OpenAI“最后一篇”超级对齐论文发布：大小模型相互博弈，输出可读性up

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

OpenAI发布了名为“超级对齐”的论文，通过大模型和小模型相互博弈提高模型输出的可读性和准确率。研究受到多伦多大学学者启发，通过博弈训练模型，使验证者更好地理解证明者生成的内容。这种训练方法在准确率和可理解性之间取得了平衡，有望使未来的模型比人类更聪明。

🎯

关键要点

OpenAI发布了名为“超级对齐”的论文，旨在提高模型输出的可读性和准确率。
研究模仿了多伦多大学的“证明者-验证者”博弈，通过博弈训练模型。
大模型作为“证明者”，小模型作为“验证者”，两者相互较量以提升输出质量。
这种训练方法在准确率和可理解性之间取得了平衡，有望使未来的模型比人类更聪明。
研究表明，传统训练方式只关注准确率，导致人类判断准确性下降。
引入人类偏好后，验证器的判断准确率与人类相关，提升了模型输出的可解释性。
博弈式训练方法使得人类判断准确率在训练后超过82%，而传统方法仅为75%。
验证器的规模影响训练效果，最佳规模为证明器的千分之一到百分之一。
OpenAI的安全策略受到关注，CTO表示公司仍有多个团队在从事安全工作。

❓

延伸问答

OpenAI的超级对齐论文主要研究了什么内容？

该论文研究了通过大模型和小模型的博弈来提高模型输出的可读性和准确率。

什么是证明者-验证者博弈？

证明者-验证者博弈是一种训练方法，其中大模型作为证明者生成内容，小模型作为验证者判断内容的可信性。

这种博弈训练方法有什么优势？

它在保持模型准确率的同时，提高了人类对模型输出的理解和判断准确率。

传统训练方法与博弈训练方法有什么区别？

传统方法只关注准确率，导致人类判断下降，而博弈方法则平衡了准确率和可理解性。

验证器的规模对训练效果有什么影响？

验证器规模过小会导致训练不稳定，过大则难以提高鲁棒性，最佳规模为证明器的千分之一到百分之一。

OpenAI的安全策略在这项研究中有什么体现？

尽管超级对齐团队解散，OpenAI仍有多个团队在从事安全工作，确保产品安全性。

🏷️

继续阅读

原华为盘古大模型负责人王云鹤离职创业；苹果硬件负责人启动重大重组；OpenAI联合创始人加入Anthropic
近期多家科技公司高管频繁变动。华为盘古大模型负责人王云鹤离职创业，成立新公司“基元律动”；阿里副总裁张凯夫也离职创业，专注市场行为预测；苹果硬件部门进行重...
OpenAI合并ChatGPT和Codex，AI超级App路线浮出水面！
OpenAI合并了ChatGPT和Codex，推出了AI超级App，Codex用户已超过500万，其中20%为非开发者。新功能包括角色插件、网站和批注，旨...
梦境：为更有帮助的ChatGPT提供更好的记忆
OpenAI推出了更强大的记忆系统，通过“梦境”功能自动更新用户信息，提高ChatGPT在互动中的时效性和准确性。该更新已向美国的Plus和Pro用户推出...
真重置！Codex因昨日连续发生的多次故障重置本周额度继续向后顺延7天
OpenAI的Codex于早上8点半完成了本周的额度重置，以补偿前一天的故障，这些故障影响了ChatGPT的登录和API调用。重置仅限于付费用户，下一次重...
派早报：豆包确认将推出付费版服务、樱桃发布 UWB 键盘等
豆包计划推出专业版服务，涵盖软件开发和数据分析，同时保持免费功能。Kimi Work正在测试中，支持创建子Agent以处理复杂任务。OpenAI扩展Cod...
模型评估：证明您的路由策略确实有效
本文介绍了DigitalOcean的模型评估功能，帮助团队在真实工作负载下评估不同的推理策略。用户可以通过比较多种模型和路由策略来优化成本、延迟和输出质量...