极道 ·

AA榜单反转真相解析：DeepSeek幻觉率96%垫底，但写代码强过Minimax

💡 原文中文，约6800字，阅读约需17分钟。

📝

内容提要

DeepSeek V4 Pro的幻觉率高达96%，但在编程方面表现出色。Minimax M3以16%的低幻觉率显示出更好的自我认知能力。高幻觉率并不意味着模型能力差，而是由于过度自信导致的错误。这表明在不同任务中选择合适的模型至关重要。

🎯

🔎

在不同任务中，选择合适的模型至关重要。DeepSeek V4 Pro虽然幻觉率高达96%，但在编程和逻辑推理方面表现优异，适合需要创造性和快速构思的场合。而Minimax M3则在需要准确性和可靠性的任务中更具优势，适合审核和校对等工作。

高幻觉率并不意味着模型能力差，而是可能由于过度自信导致的错误。DeepSeek在常识性问题上表现不佳，但在逻辑推理和代码生成领域却能展现出强大的能力。这表明，模型的自我意识和承认不知道的能力是未来发展的关键。

AA-Omniscience的测试方法可能存在局限性，特别是它可能未能全面覆盖模型的训练数据。这导致某些模型在特定问题上表现不佳，反映出它们在面对未知时的脆弱性。因此，理解测试的背景和方法对于解读结果至关重要。

❓

DeepSeek V4 Pro的幻觉率高达96%。

DeepSeek的高幻觉率是因为它在回答不确定的问题时过于自信，宁愿编造答案而不承认不知道。

Minimax M3的幻觉率仅为16%。

高幻觉率并不意味着模型能力差，而是由于过度自信导致的错误。

尽管DeepSeek的幻觉率高，但在编程方面表现出色，几乎没有幻觉问题。

选择合适的模型在不同任务中至关重要，需考虑模型的幻觉率和任务需求。

🏷️