量子位 ·

数学题干带猫AI就不会了！错误率翻300%，DeepSeek、o1都不能幸免

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

研究表明，添加与猫相关的语句会显著提高大模型的数学错误率，错误率增加300%。DeepSeek和OpenAI的模型均受到影响，推理能力下降，Token消耗增加，猫的干扰分散了模型的注意力，导致频繁出错。

🎯

🔎

研究表明，猫相关语句会显著分散大模型的注意力，导致推理能力下降。这种干扰不仅影响了模型的准确性，还增加了Token的消耗，影响了计算效率。理解这种干扰机制有助于开发更稳健的AI系统，减少外部因素对模型性能的影响。

不同模型对猫干扰的敏感性存在差异。DeepSeek-R1和o1的错误率提升最为明显，而小规模模型o3-mini受到的影响较小。这提示开发者在选择模型时需考虑其对特定干扰的抵抗力，以优化应用场景中的表现。

实验显示，受到猫干扰后，模型的Token消耗显著增加，某些情况下甚至达到原来的近7倍。这不仅增加了计算成本，也可能影响用户体验，尤其是在资源有限的环境中。开发者应关注这一点，以优化模型的使用效率。

❓

添加与猫相关的语句会分散模型的注意力，导致推理能力下降，从而增加错误率。

这两个模型的推理能力下降，错误率增加，Token消耗也显著上升。

研究中使用了问题筛选、正式测试和语义筛选三种攻击方式。

DeepSeek-R1和o1的错误率提升最明显，DeepSeek R1的错误率翻3倍。

猫相关语句的加入导致Token消耗大幅增加，某些情况下甚至是原来的近7倍。

Collinear AI由Hugging Face前研究负责人Nazneen Rajani创立，团队成员大多来自Hugging Face、Google等知名机构。

🏷️