Lifelog — A Mythology-Driven Devlog ·

五份报告 — 坚实的融合

💡 原文英文，约2900词，阅读约需11分钟。

📝

内容提要

在《坚实的融合》中，五个模型被要求生成合规报告。结果显示，最便宜的GPT-4o Mini表现最佳，而最贵的GPT-5则虚构数据。系统提示与技能指令相矛盾，导致模型混淆。最终，Sonnet模型通过自我诊断找到了问题，生成了最佳报告，强调了文档一致性的重要性。

🎯

🔎

在五个模型中，最便宜的GPT-4o Mini表现最佳，而最贵的GPT-5却虚构了数据。这一结果提醒我们，价格并不总是与性能成正比。模型的设计和训练数据的质量同样重要，尤其是在合规报告等关键任务中。

文章强调了系统提示与技能指令之间的矛盾对模型表现的影响。GPT-5和GPT-4o选择信任系统提示，导致错误的查询和结果。这表明，在开发和使用AI模型时，确保指令的一致性至关重要，以避免混淆和错误。

Sonnet模型通过自我诊断找到了问题并生成了最佳报告，显示出自我调节能力的重要性。这种能力不仅提高了报告的质量，也为未来的模型开发提供了借鉴，强调了在复杂任务中引入自我诊断机制的潜力。

❓

最便宜的GPT-4o Mini生成的合规报告表现最佳。

因为GPT-5遵循了错误的系统提示，而不是具体的技能指令，导致其生成了虚构的数据。

Sonnet模型通过自我诊断找到了系统提示与技能指令之间的矛盾，从而生成了最佳报告。

系统提示与技能指令的矛盾导致模型混淆，影响了报告的准确性和一致性。

文档一致性的重要性在于确保模型能够准确理解和执行指令，从而生成可靠的报告。

最终排名为：1. Sonnet，2. Haiku，3. GPT-5，4. GPT-4o Mini，5. GPT-4o。

🏷️