The New Stack ·

为什么GPT-5.4、Claude和Gemini在基本的现实世界事实上无法达成一致

💡 原文英文，约1200词，阅读约需5分钟。

📝

内容提要

近期研究显示，五种大型语言模型在处理真实世界声明时，67%的情况下存在意见分歧，尤其在判断“真实”与“虚假”时表现不一致。研究强调开发团队需谨慎验证AI生成内容，以避免法律和声誉风险。

🎯

🔎

研究显示，五种大型语言模型在处理真实世界声明时，67%的情况下存在意见分歧。这表明，尽管这些模型在某些情况下可能表现出一致性，但在复杂或模糊的判断上，它们的表现却可能大相径庭。开发者在使用这些模型时，需意识到这种不一致性可能影响最终结果的可靠性。

由于模型在判断“真实”与“虚假”时存在显著分歧，开发团队在部署AI生成内容时必须谨慎。特别是在涉及法律、财务或声誉风险的应用场景中，确保内容的准确性和可靠性至关重要。未经过验证的内容可能导致严重后果，因此需要建立有效的验证机制。

研究指出，模型在中间类别（如“基本真实”和“误导性”）的使用频率差异较大，这可能导致判断不一致。某些模型对这些模糊类别的分类显得更为谨慎，而另一些则可能更倾向于明确的判断。这种差异反映了模型在处理复杂信息时的不同策略，值得开发者关注。

❓

研究显示，五种大型语言模型在判断真实与虚假时存在67%的意见分歧，尤其在中间地带的判断上表现不一致。

开发团队需验证AI生成内容，以避免法律和声誉风险，特别是在涉及法律、财务或声誉风险的系统中。

研究中提到的五种大型语言模型是GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro + Search和Sonar Pro。

模型在中间类别的使用频率差异较大，可能导致判断不一致，影响模型的整体准确性。

未来的研究将测量模型与人类提供的标签之间的对比，以进一步分析模型的准确性和分歧结构。

研究中，34%的声明存在显著分歧，21%的声明则是完全相反的判断。

🏷️