量子位 ·

数学题干带猫AI就不会了！错误率翻300%，DeepSeek、o1都不能幸免

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

研究表明，添加与猫相关的语句会显著提高大模型的数学错误率，错误率增加300%。DeepSeek和OpenAI的模型均受到影响，推理能力下降，Token消耗增加，猫的干扰分散了模型的注意力，导致频繁出错。

🎯

关键要点

研究表明，添加与猫相关的语句会显著提高大模型的数学错误率，错误率增加300%。
DeepSeek和OpenAI的模型均受到影响，推理能力下降，Token消耗增加。
猫的干扰分散了模型的注意力，导致频繁出错。
研究者对攻击方式进行了探索，包括问题筛选、正式测试和语义筛选。
在DeepSeek-V3上进行的攻击成功率为35%，在DeepSeek-R1上为20%。
不同模型的错误率增加情况不同，DeepSeek-R1和o1错误率提升最明显。
实验结果显示，Token消耗也大幅增加，某些情况下甚至是原来的近7倍。
研究由Collinear AI团队进行，创始人Nazneen Rajani曾在Hugging Face工作。

🏷️

继续阅读

Qt Group与高通合作，简化工业AI设备开发流程
Qt Group与高通合作，优化Qt框架以支持高通物联网处理器，简化边缘AI设备的开发。开发者可通过Qt Edge AI API轻松实现复杂应用，无需深入...
OpenAI宣布收购AI安全初创公司Promptfoo 可以提高智能体的安全防御能力
OpenAI 收购了 AI 安全初创公司 Promptfoo，旨在提升 AI 智能体的安全性。Promptfoo 成立于 2024 年，估值 8600 万...
80%营销人员感受到采用AI的压力，但仅6%在工作流程中完全应用AI
Supermetrics发布的报告显示，80%的营销人员感受到应用AI的压力，但仅6%完全使用AI。压力主要来自高层，52%的受访者的数据战略由外部团队定...
在线教程丨免费CPU资源快速部署，覆盖Qwen3.5/DeepSeek-R1/Gemma 3/Llama 3.2等热门开源模型
开源模型迭代迅速，开发者希望低门槛部署新模型，但GPU成本和环境配置仍是障碍。HyperAI提供免费CPU配额和在线教程，帮助开发者快速体验模型。
短剧“变天”，AI真人剧产能暴涨千倍
短剧机会窗口期越来越短。数日前，“短剧变天”的传闻在行业引起了轩然大波，相关话题讨论连续数日霸屏微博热搜。3月7日，抖音集团副总裁李亮发微博回应称，红果会...
AI 不只是聊天：小龙虾背后的范式变化
小龙虾（OpenClaw）展示了三种AI应用方式：聊天AI、自动化工具和AI代理。聊天AI用于回答问题，自动化工具处理流程，而小龙虾能够自主规划任务。尽管...

数学题干带猫AI就不会了！错误率翻300%，DeepSeek、o1都不能幸免

内容提要

关键要点

标签

继续阅读