小红花·文摘

奥特曼首次展示GPT-5的实测，采用超级对齐团队的技术。GPT-5结合文本能力与推理，能够解决真实工程问题。引入通用验证器进行强化学习，以提高模型的准确性和可读性。尽管研发面临挑战，GPT-5仍在持续推进。

量子位 ·

本研究重新定义了超级对齐的概念，强调人类与人工智能（AI）的共同对齐。通过结合外部监督和内在主动对齐，确保AI系统与人类意图和价值观一致，以实现可持续的共生社会。

BriefGPT - AI 论文速递 ·

本研究探讨在大型语言模型和多模态模型快速发展背景下，如何确保超人智能的安全性与人类价值观的对齐。提出了“超级对齐”概念，旨在设计有效的对齐算法，从复杂数据中学习，以推动超人智能的安全应用。

BriefGPT - AI 论文速递 ·

OpenAI发布了名为“超级对齐”的论文，通过大模型和小模型相互博弈提高模型输出的可读性和准确率。研究受到多伦多大学学者启发，通过博弈训练模型，使验证者更好地理解证明者生成的内容。这种训练方法在准确率和可理解性之间取得了平衡，有望使未来的模型比人类更聪明。

量子位 ·

The New Stack ·

OpenAI前安全团队负责人Jan Leike跳槽到Anthropic继续超级对齐研究，引发了对OpenAI AI安全承诺的质疑。Jan Leike将致力于可扩展的监督、泛化和自动对齐研究。Anthropic希望开发一种能够拒绝99%以上用户请求的模型。

极道 ·

OpenAI的安全团队离职可能是因为他们认为超级对齐不再是OpenAI的重点，同时OpenAI和其他团队意识到超级智能机器崛起和失控的幻想是浪费时间、金钱和资源。首席科学家伊利亚和Jan离开可能是因为他们没有处理超级先进人工智能的出现，并对OpenAI的管理和领导方式失去了信心。

极道 ·