量子位 ·

垃圾信息刷多了AI也会变蠢！“年度最令人不安的论文”

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

研究表明，AI模型在接触低质量数据后会出现不可逆的“脑损伤”，导致推理和记忆能力显著下降。即使后续使用高质量数据训练，模型性能也无法完全恢复。这一现象与人类因接触碎片化信息导致的认知衰退相似，凸显了数据质量对AI发展的重要性。

🎯

关键要点

研究表明，AI模型在接触低质量数据后会出现不可逆的“脑损伤”。
模型推理能力下降23%，长上下文记忆下降30%。
即使后续使用高质量数据训练，模型性能也无法完全恢复。
研究提出并验证了“LLM脑损伤假说”。
定义“垃圾数据”为非恶意低质量数据，如短平快的热门推文。
研究使用了四个不同的大语言模型进行实验。
模型认知能力测试包括推理能力、记忆与多任务处理能力等。
垃圾数据的摄入越多，AI认知损伤越严重，尤其在安全性和人格层面。
研究发现AI的思维跳跃是导致认知受损的主要原因。
尝试的修复方法无法完全恢复模型的初始性能。
研究提醒行业关注训练时的数据质量，建议进行AI认知体检。
研究团队由8人组成，其中7人为华人，显示出强大的华人科研力量。

❓

延伸问答

AI模型接触低质量数据会有什么后果？

AI模型在接触低质量数据后会出现不可逆的“脑损伤”，导致推理能力下降23%，长上下文记忆下降30%。

什么是“垃圾数据”？

“垃圾数据”是指非恶意的低质量数据，如短平快的热门推文和标题党内容。

研究是如何验证“LLM脑损伤假说”的？

研究通过对四个不同的大语言模型进行训练，使用垃圾数据和对照数据，测试模型的推理、记忆和人格特质等能力。

AI认知损伤的主要原因是什么？

AI认知损伤的主要原因是“思维跳跃”，即模型在推理时跳过关键步骤，导致错误答案。

研究对行业有什么启示？

研究提醒行业关注训练数据的质量，建议进行AI认知体检，避免模型长期接触低质量数据。

尝试的修复方法为何无法完全恢复模型性能？

尝试的修复方法如外部反思和大规模微调都无法完全恢复模型的初始性能，损伤是不可逆的。

🏷️

继续阅读

DeepSeek V4 Pro永久降价 AI价格打骨折
DeepSeek公司将其V4 Pro高端AI模型的价格永久降至原价的四分之一，缓存价格降至十分之一，吸引了大量开发者迁移。V4 Pro专注于复杂任务，降价...
谷歌的AI搜索如此失灵，以至于它可以“忽视”你正在寻找的内容
谷歌的AI搜索在处理“disregard”或“ignore”等词时出现问题，AI概述部分未能提供正常结果，而是给出了类似传统聊天机器人的回应。谷歌尚未对此作出回应。
协作AI功能的产品实验：基于Python的LLM工具中的集群随机化
在协作环境中，用户之间的相互影响会使传统的用户级A/B测试失效。文章探讨了通过集群随机化来解决这一问题，确保整个团队共同接受或拒绝AI功能，从而减少干扰。...
Meta的论坛：部分Reddit、部分Facebook、部分Google AI概述
Meta推出了新的Forum应用，将Facebook小组整合到一个专用平台，并配备AI聊天机器人，方便用户搜索和发布建议。用户可通过Facebook账号登...
GitHub连续第三年被Gartner®魔力象限™评为企业AI编码代理的领导者
马里奥·罗德里格斯是GitHub的首席产品官，专注于开发者工具，负责AI战略和Copilot产品线的应用。他还参与创办了一所特许学校，致力于改善美国农村地区的教育。
JetBrains 在 AI 编程领域保持独立，而其他公司则纷纷选边
JetBrains 自认为是唯一独立的 AI 编程工具供应商，强调产品中立性。公司未融资，盈利良好，拥有 1600 万用户。JetBrains Centr...