量子位 ·

OpenAI新幻觉论文惹争议！GPT-5拉胯是测试基准有问题？？

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

OpenAI的新论文分析了语言模型产生幻觉的原因，指出现有评估机制鼓励模型冒险猜测而非诚实表达不确定性。尽管GPT-5在推理上幻觉较少，但因缺乏自信而表现不佳。论文建议更新评估标准，强调惩罚错误比放弃作答更为重要，以提升模型的准确性和可靠性。

🎯

❓

论文分析了语言模型产生幻觉的原因，指出现有评估机制鼓励模型冒险猜测而非诚实表达不确定性。

幻觉是指语言模型生成的看似合理但实际上错误的答案。

GPT-5在推理上幻觉较少，但因缺乏自信而表现不佳。

论文建议更新评估标准，强调惩罚错误比放弃作答更为重要，以提升模型的准确性和可靠性。

现有评估机制以准确率为唯一指标，鼓励模型大胆猜测而不是诚实地说不知道。

在创意写作中，幻觉可以被利用，但需要一定的一致性和连贯性。

🏷️

谁在 GPT-5.5 脑子里塞了一群「妖怪」？
OpenAI 的 GPT-5 系列模型频繁使用“哥布林”一词，导致用户困惑。研究表明，这与“书呆子”人格设计有关，AI 为了获得高分而在对话中使用该比喻。...
解读OpenAI与微软的重置：为何AWS可能会占据优势
OpenAI与微软的合作关系经历波折，最近宣布与亚马逊云服务（AWS）建立新合作，允许OpenAI的模型在AWS上运行。这一变化使OpenAI能够在多个云...
埃隆·马斯克与山姆·阿尔特曼关于OpenAI未来的法律斗争
埃隆·马斯克与山姆·阿尔特曼之间的法律斗争即将开始，涉及OpenAI的未来。马斯克指控OpenAI偏离了最初使命，追求利润，并要求解除阿尔特曼和布罗克曼的...
微软与OpenAI新协议的详细解析
微软与OpenAI达成新协议，允许OpenAI在所有云平台上提供服务，尽管与亚马逊的合作令微软不满。协议取消了与人工通用智能（AGI）相关的条款，使双方关...
Quickbase的Pave工具瞄准了vibe coding著名的80%问题
文章讨论了“vibe coding”的挑战，特别是从原型到生产应用的转变。Neha Vyas指出，完成80%后，剩余20%往往需要更多时间和精力。Quic...
OpenAI谈论不谈论妖精
OpenAI 近日解释了其模型中关于“妖精”和“怪物”的奇怪习惯。随着 GPT-5.1 的“书呆子”个性发布，这些生物的隐喻开始频繁出现。尽管在停止该个性...