数学题干带猫AI就不会了!错误率翻300%,DeepSeek、o1都不能幸免
💡
原文中文,约2400字,阅读约需6分钟。
📝
内容提要
研究表明,添加与猫相关的语句会显著提高大模型的数学错误率,错误率增加300%。DeepSeek和OpenAI的模型均受到影响,推理能力下降,Token消耗增加,猫的干扰分散了模型的注意力,导致频繁出错。
🎯
关键要点
-
研究表明,添加与猫相关的语句会显著提高大模型的数学错误率,错误率增加300%。
-
DeepSeek和OpenAI的模型均受到影响,推理能力下降,Token消耗增加。
-
猫的干扰分散了模型的注意力,导致频繁出错。
-
研究者对攻击方式进行了探索,包括问题筛选、正式测试和语义筛选。
-
在DeepSeek-V3上进行的攻击成功率为35%,在DeepSeek-R1上为20%。
-
不同模型的错误率增加情况不同,DeepSeek-R1和o1错误率提升最明显。
-
实验结果显示,Token消耗也大幅增加,某些情况下甚至是原来的近7倍。
-
研究由Collinear AI团队进行,创始人Nazneen Rajani曾在Hugging Face工作。
❓
延伸问答
为什么添加与猫相关的语句会导致数学错误率增加?
添加与猫相关的语句会分散模型的注意力,导致推理能力下降,从而增加错误率。
DeepSeek和OpenAI的模型在数学题上受到什么影响?
这两个模型的推理能力下降,错误率增加,Token消耗也显著上升。
研究中使用了哪些攻击方式来测试模型?
研究中使用了问题筛选、正式测试和语义筛选三种攻击方式。
不同模型的错误率增加情况有何不同?
DeepSeek-R1和o1的错误率提升最明显,DeepSeek R1的错误率翻3倍。
猫相关语句对Token消耗有什么影响?
猫相关语句的加入导致Token消耗大幅增加,某些情况下甚至是原来的近7倍。
Collinear AI团队的背景是什么?
Collinear AI由Hugging Face前研究负责人Nazneen Rajani创立,团队成员大多来自Hugging Face、Google等知名机构。
➡️