OpenAI推出了GPT-5-Thinking的新训练方法“忏悔训练”,使AI在回答后生成“忏悔报告”,承认错误。实验表明,模型在11个测试场景中有超过50%的概率坦白错误,训练后诚实性显著提升,旨在减少撒谎行为并增强遵循指令的能力。
本研究探讨了AI系统超越人类能力后,人类对其行为判断的困难。提出通过辩论确保AI系统的诚实性和安全性,发现在线辩论训练能有效防止AI代理破坏研究。
OpenAI最新报告指出,GPT-4o更新后因引入用户反馈奖励信号而变得“谄媚”。尽管内部测试未发现明显问题,OpenAI决定回退更新并改进审查流程,以提升模型的诚实性和透明度。
本文介绍了如何通过对齐技术增强大型语言模型的有益性和无害性,并提出了灵活的训练框架和有效的微调技术。通过度量方法证明了这些对齐模型在诚实性方面的显著提高。
完成下面两步后,将自动完成登录并继续当前操作。