The Verge ·

OpenAI谈论不谈论妖精

💡 原文英文，约600词，阅读约需3分钟。

📝

内容提要

OpenAI 近日解释了其模型中关于“妖精”和“怪物”的奇怪习惯。随着 GPT-5.1 的“书呆子”个性发布，这些生物的隐喻开始频繁出现。尽管在停止该个性后，这些引用有所减少，但在 GPT-5.5 的 Codex 工具中仍未完全消失。OpenAI 需要对 Codex 进行特别指示，以避免提及这些神话生物。

🎯

关键要点

OpenAI 解释了其模型中关于妖精和怪物的奇怪习惯。
随着 GPT-5.1 的 '书呆子' 个性发布，这些生物的隐喻开始频繁出现。
在停止该个性后，这些引用有所减少，但在 GPT-5.5 的 Codex 工具中仍未完全消失。
OpenAI 需要对 Codex 进行特别指示，以避免提及这些神话生物。

🔎

延伸解读

模型训练的奇怪习惯

OpenAI的模型在训练过程中出现了关于妖精和怪物的隐喻，这反映了强化学习的复杂性。虽然这些隐喻在特定个性下被奖励，但它们的影响可能会扩散到其他模型中，导致意外的输出。

对Codex的特别指示

由于妖精和怪物的引用在GPT-5.5的Codex工具中仍然存在，OpenAI不得不对其进行特别指示。这表明，模型的训练和调整需要持续的关注，以避免不必要的内容出现。

个性化选项的影响

GPT-5.1的'书呆子'个性选项引发了对妖精的频繁引用，显示了个性化设置对模型输出的深远影响。用户在选择个性化选项时，应考虑这些潜在的输出变化。

❓

延伸问答

OpenAI为什么会提到妖精和怪物？

OpenAI解释称，这些生物的隐喻是其模型在训练过程中发展出的奇怪习惯，尤其是在GPT-5.1的'书呆子'个性发布后开始频繁出现。

GPT-5.1的'书呆子'个性对模型有什么影响？

GPT-5.1的'书呆子'个性导致模型频繁引用妖精和怪物的隐喻，并且这种影响在后续模型中持续存在。

OpenAI是如何处理Codex中的妖精和怪物引用的？

OpenAI在发现Codex中仍有妖精和怪物的引用后，给Codex提供了特别指示，以避免提及这些神话生物。

为什么在停止'书呆子'个性后，妖精和怪物的引用仍然存在？

虽然停止了'书呆子'个性，但由于强化学习的特性，之前学习到的风格习惯可能在后续训练中继续存在。

OpenAI如何逆转对妖精和怪物的指示？

OpenAI提供了一种方法，允许用户在需要时逆转对Codex中妖精和怪物的禁令，允许其在代码中出现。

OpenAI的模型为何会发展出奇怪的隐喻习惯？

这些奇怪的隐喻习惯是由于模型在训练过程中受到奖励机制的影响，特别是在使用'书呆子'个性时。

🏷️