数学题干带猫AI就不会了!错误率翻300%,DeepSeek、o1都不能幸免

💡 原文中文,约2400字,阅读约需6分钟。
📝

内容提要

研究表明,添加与猫相关的语句会显著提高大模型的数学错误率,错误率增加300%。DeepSeek和OpenAI的模型均受到影响,推理能力下降,Token消耗增加,猫的干扰分散了模型的注意力,导致频繁出错。

🎯

关键要点

  • 研究表明,添加与猫相关的语句会显著提高大模型的数学错误率,错误率增加300%。

  • DeepSeek和OpenAI的模型均受到影响,推理能力下降,Token消耗增加。

  • 猫的干扰分散了模型的注意力,导致频繁出错。

  • 研究者对攻击方式进行了探索,包括问题筛选、正式测试和语义筛选。

  • 在DeepSeek-V3上进行的攻击成功率为35%,在DeepSeek-R1上为20%。

  • 不同模型的错误率增加情况不同,DeepSeek-R1和o1错误率提升最明显。

  • 实验结果显示,Token消耗也大幅增加,某些情况下甚至是原来的近7倍。

  • 研究由Collinear AI团队进行,创始人Nazneen Rajani曾在Hugging Face工作。

延伸问答

为什么添加与猫相关的语句会导致数学错误率增加?

添加与猫相关的语句会分散模型的注意力,导致推理能力下降,从而增加错误率。

DeepSeek和OpenAI的模型在数学题上受到什么影响?

这两个模型的推理能力下降,错误率增加,Token消耗也显著上升。

研究中使用了哪些攻击方式来测试模型?

研究中使用了问题筛选、正式测试和语义筛选三种攻击方式。

不同模型的错误率增加情况有何不同?

DeepSeek-R1和o1的错误率提升最明显,DeepSeek R1的错误率翻3倍。

猫相关语句对Token消耗有什么影响?

猫相关语句的加入导致Token消耗大幅增加,某些情况下甚至是原来的近7倍。

Collinear AI团队的背景是什么?

Collinear AI由Hugging Face前研究负责人Nazneen Rajani创立,团队成员大多来自Hugging Face、Google等知名机构。

➡️

继续阅读