在《坚实的融合》中,五个模型被要求生成合规报告。结果显示,最便宜的GPT-4o Mini表现最佳,而最贵的GPT-5则虚构数据。系统提示与技能指令相矛盾,导致模型混淆。最终,Sonnet模型通过自我诊断找到了问题,生成了最佳报告,强调了文档一致性的重要性。
完成下面两步后,将自动完成登录并继续当前操作。